Ubuntu下的Apache服务器日志文件大小的控制

近日忽然发现Ubuntu Server登录以后提示根文件系统容量即将耗竭。经过查找之后发现 /var/log/apache2/error.log.1居然达到了惊人的70GB……。进一步发现,某些不知什么原因批量提交错误数据的家伙造成了这个结果,随直接封IP。

问题是,apache怎么可能这么傻的把日志文件搞到这个体积,进一步搜索知道了应该使用这样的配置来限制日志文件的大小:

修改/etc/apache2/sites-available/default,将ErrorLog改为

ErrorLog "|/usr/sbin/rotatelogs ${APACHE_LOG_[......]

继续阅读

发表在 软件使用与程序设计 | Ubuntu下的Apache服务器日志文件大小的控制已关闭评论

误删除了.bashrc后如何恢复

Ubuntu 的.bashrc还是有点容量的,默认的.bashrc可以在/etc/skel下找到。

直接复制到自己的”~”目录就好了。[……]

继续阅读

发表在 软件使用与程序设计 | 误删除了.bashrc后如何恢复已关闭评论

数FASTQ文件中的序列数量

这个事情有一点点tricky的味道,经过若干实验,发现比较靠谱的办法是这么办

cat test.fq | grep "^+$"| wc -l

第三行看来是个不错的标记啊。[……]

继续阅读

发表在 生物信息学 | 数FASTQ文件中的序列数量已关闭评论

计算FASTA/FASTQ文件中序列的GC Content

在处理生物序列数据的过程中,有些时候需要知道某个数据集的GC Content,如果手边有专门的软件最好,如果没有,其实大可以用简单的Linux命令行工具来大致的进行计算。

1. 计算FASTA文件中的总符号数量

cat test.fas | grep -v "^>" | tr -d "rn"| wc -m

2. 计算FASTA文件中的总GC数量

cat test.fas | grep -v "^>" | tr -d "rnATNatn" | wc -m

3. 计算FASTQ文件中的总符号数量

cat test.fq | awk[......]

继续阅读

发表在 生物信息学 | 计算FASTA/FASTQ文件中序列的GC Content已关闭评论

使用命令行工具求文本的行补集

在处理生物信息学数据的过程中,有时会遇到这样的需求,需要从一个文件中剔除一部分满足条件的行,举例来说,在文件test中有很多的id,每行一个,我们希望把这些id中有重复的那些都彻底的除去,一个不留。这至少有两种办法,可以在完全不写程序的条件下来完成。

方法一:如果你不想要这些有重复的id的列表,那么

cat test | cut -f 2 | sort | uniq -u

就可以了,这里假设了我们的id都是在文件的第二列,并且文件是用t分割的文本。

方法二:如果你的文本稍微有那么点复杂,并且你想要的不仅是id的话,那么就得多费一道手续

cat test[......]

继续阅读

发表在 生物信息学 | 使用命令行工具求文本的行补集已关闭评论