分类目录归档:生物信息学

如何从PDF格式的数据集中高效的提取数据

生物信息学中很多数据集是在论文的附件中提供的,这种方式提供的数据集很多时候会将FASTA格式的序列数据,连同一些说明性的注释一起写在一个PDF文件里面。在这种情况下,如果要使用这样的数据集无外乎有两种方法,一是给作者发邮件,索要原始的数据集,另外一个,就是自行处理PDF格式的数据。对于第一种方法,即[……]

继续阅读

发表在 生物信息学 | 如何从PDF格式的数据集中高效的提取数据已关闭评论

UniProt的Subcellular Location的格式

UniProt里面的亚细胞定位标注部分是有固定的格式可循的。这种格式是可以用正则表达式来标示的。这种可以遵循的格式最早起源于2007-10-23版本。

原始文章如下:(链接:http://www.uniprot.org/help/2007/10/23/release)

    Syntax[......]

继续阅读

发表在 生物信息学 | UniProt的Subcellular Location的格式已关闭评论

在Ubuntu上干净的配置Bioconductor

这个只是因为洁癖,稍微折腾了一下。

全新的Ubuntu Server CLI最小安装,除了OpenSSH Server什么都不要装的情况下。只需要安装极少的依赖包,就能跑Bioconductor的基础功能了。

需要安装的Ubuntu包

r-base-core; r-cran-r[......]

继续阅读

发表在 生物信息学 | 在Ubuntu上干净的配置Bioconductor已关闭评论

解析DrugBank的XML格式数据文件

DrugBank的4.0版本目前只提供了XML格式的数据供下载,以及还提供了一个XSD格式的XML Schema文件,如何有效的解析这样格式的数据,实际上是一个不大不小的问题。其中的一个关键是,究竟如何能够从XML格式的数据文件中提取我们感兴趣的数据。

经过若干的尝试之后,似乎只有继续使用C#[……]

继续阅读

发表在 生物信息学 | 解析DrugBank的XML格式数据文件已关闭评论

sed 定位不匹配的行

在使用sed进行文本处理的时候,有些情况下需要对不满足模式要求的行进行处理。sed是具有这个功能的。

首先,要明白sed的命令包含两个部分,一个部分是地址,一个部分是操作。例如,对于从UniProt下载的FASTA文件,如果想先把注释行变成只有AC的行,就需要这么做:

sed -re[......]

继续阅读

发表在 生物信息学, 软件使用与程序设计 | sed 定位不匹配的行已关闭评论