分类目录归档：生物信息学

如何从PDF格式的数据集中高效的提取数据

发表于2015年4月23日由Pu-Feng Du

生物信息学中很多数据集是在论文的附件中提供的，这种方式提供的数据集很多时候会将FASTA格式的序列数据，连同一些说明性的注释一起写在一个PDF文件里面。在这种情况下，如果要使用这样的数据集无外乎有两种方法，一是给作者发邮件，索要原始的数据集，另外一个，就是自行处理PDF格式的数据。对于第一种方法，即[……]

继续阅读

发表在生物信息学 | 已关闭评论

UniProt的Subcellular Location的格式

发表于2015年4月21日由Pu-Feng Du

UniProt里面的亚细胞定位标注部分是有固定的格式可循的。这种格式是可以用正则表达式来标示的。这种可以遵循的格式最早起源于2007-10-23版本。

原始文章如下：(链接：http://www.uniprot.org/help/2007/10/23/release)

    Syntax[......]继续阅读

发表在生物信息学 | 已关闭评论

在Ubuntu上干净的配置Bioconductor

发表于2014年5月13日由Pu-Feng Du

这个只是因为洁癖，稍微折腾了一下。

全新的Ubuntu Server CLI最小安装，除了OpenSSH Server什么都不要装的情况下。只需要安装极少的依赖包，就能跑Bioconductor的基础功能了。

需要安装的Ubuntu包

r-base-core; r-cran-r[......]继续阅读

发表在生物信息学 | 已关闭评论

解析DrugBank的XML格式数据文件

发表于2014年4月14日由Pu-Feng Du

DrugBank的4.0版本目前只提供了XML格式的数据供下载，以及还提供了一个XSD格式的XML Schema文件，如何有效的解析这样格式的数据，实际上是一个不大不小的问题。其中的一个关键是，究竟如何能够从XML格式的数据文件中提取我们感兴趣的数据。

经过若干的尝试之后，似乎只有继续使用C#[……]

继续阅读

发表在生物信息学 | 已关闭评论

sed 定位不匹配的行

发表于2013年4月23日由Pu-Feng Du

在使用sed进行文本处理的时候，有些情况下需要对不满足模式要求的行进行处理。sed是具有这个功能的。

首先，要明白sed的命令包含两个部分，一个部分是地址，一个部分是操作。例如，对于从UniProt下载的FASTA文件，如果想先把注释行变成只有AC的行，就需要这么做：

sed -re[......]继续阅读

发表在生物信息学, 软件使用与程序设计 | 已关闭评论

分类目录归档：生物信息学

如何从PDF格式的数据集中高效的提取数据

UniProt的Subcellular Location的格式

在Ubuntu上干净的配置Bioconductor

解析DrugBank的XML格式数据文件

sed 定位不匹配的行

查找

类别

关于这个博客的几点说明