计算FASTA/FASTQ文件中序列的GC Content

在处理生物序列数据的过程中,有些时候需要知道某个数据集的GC Content,如果手边有专门的软件最好,如果没有,其实大可以用简单的Linux命令行工具来大致的进行计算。

1. 计算FASTA文件中的总符号数量

cat test.fas | grep -v "^>" | tr -d "rn"| wc -m

2. 计算FASTA文件中的总GC数量

cat test.fas | grep -v "^>" | tr -d "rnATNatn" | wc -m

3. 计算FASTQ文件中的总符号数量

cat test.fq | awk 'BEGIN{a =0} {a++; if (a % 4 == 2) print $0}' | tr -d "rn" | wc -m

4. 计算FASTQ文件中的总GC数量

cat test.fq | awk 'BEGIN{a =0} {a++; if (a % 4 == 2) print $0}' | tr -d "rnATNatn" | wc -m
此条目发表在生物信息学分类目录。将固定链接加入收藏夹。