在处理生物序列数据的过程中,有些时候需要知道某个数据集的GC Content,如果手边有专门的软件最好,如果没有,其实大可以用简单的Linux命令行工具来大致的进行计算。
1. 计算FASTA文件中的总符号数量
cat test.fas | grep -v "^>" | tr -d "rn"| wc -m
2. 计算FASTA文件中的总GC数量
cat test.fas | grep -v "^>" | tr -d "rnATNatn" | wc -m
3. 计算FASTQ文件中的总符号数量
cat test.fq | awk 'BEGIN{a =0} {a++; if (a % 4 == 2) print $0}' | tr -d "rn" | wc -m
4. 计算FASTQ文件中的总GC数量
cat test.fq | awk 'BEGIN{a =0} {a++; if (a % 4 == 2) print $0}' | tr -d "rnATNatn" | wc -m