查找
类别
关于这个博客的几点说明
1. 这个博客只讨论技术,以及与技术有关的评论。也许,还有一些生活杂感及琐碎的杂务记录。
2. 这个博客的内容保证原创性,凡是特别的使用了网络上其他人的博客或者文章的地方,会进行引用。被引用的页面通常并不会被链接,而是会被作为PDF格式的附件置于本博客文章的尾部。这是因为被链接的网页内容可能被变更或删除,不利于阅读参考。
3. 这个博客的更新很慢很慢,博主没有时间经常关注它,尽管每个月有一篇文章还是有可能的。
4. 文章的技术内容仅供参考,如果有人照着做了,然后产生了任何损失,本博主概不负责。
5. 本博客仅仅是个人的技术经验记录,所以不接受任何评论。
6. 如果这个博客在你的屏幕上看起来乱七八糟的话,请试试用FireFox打开它。
分类目录归档:生物信息学
如何从PDF格式的数据集中高效的提取数据
生物信息学中很多数据集是在论文的附件中提供的,这种方式提供的数据集很多时候会将FASTA格式的序列数据,连同一些说明性的注释一起写在一个PDF文件里面。在这种情况下,如果要使用这样的数据集无外乎有两种方法,一是给作者发邮件,索要原始的数据集,另外一个,就是自行处理PDF格式的数据。对于第一种方法,即[……]
发表在 生物信息学
如何从PDF格式的数据集中高效的提取数据已关闭评论
UniProt的Subcellular Location的格式
UniProt里面的亚细胞定位标注部分是有固定的格式可循的。这种格式是可以用正则表达式来标示的。这种可以遵循的格式最早起源于2007-10-23版本。
原始文章如下:(链接:http://www.uniprot.org/help/2007/10/23/release)
Syntax[......]
发表在 生物信息学
UniProt的Subcellular Location的格式已关闭评论
在Ubuntu上干净的配置Bioconductor
这个只是因为洁癖,稍微折腾了一下。
全新的Ubuntu Server CLI最小安装,除了OpenSSH Server什么都不要装的情况下。只需要安装极少的依赖包,就能跑Bioconductor的基础功能了。
需要安装的Ubuntu包
r-base-core; r-cran-r[......]
发表在 生物信息学
在Ubuntu上干净的配置Bioconductor已关闭评论
解析DrugBank的XML格式数据文件
DrugBank的4.0版本目前只提供了XML格式的数据供下载,以及还提供了一个XSD格式的XML Schema文件,如何有效的解析这样格式的数据,实际上是一个不大不小的问题。其中的一个关键是,究竟如何能够从XML格式的数据文件中提取我们感兴趣的数据。
经过若干的尝试之后,似乎只有继续使用C#[……]
发表在 生物信息学
解析DrugBank的XML格式数据文件已关闭评论
sed 定位不匹配的行
在使用sed进行文本处理的时候,有些情况下需要对不满足模式要求的行进行处理。sed是具有这个功能的。
首先,要明白sed的命令包含两个部分,一个部分是地址,一个部分是操作。例如,对于从UniProt下载的FASTA文件,如果想先把注释行变成只有AC的行,就需要这么做:
sed -re[......]