Dr. Pufeng Du's Blog

Ubuntu下的Apache服务器日志文件大小的控制

近日忽然发现Ubuntu Server登录以后提示根文件系统容量即将耗竭。经过查找之后发现 /var/log/apache2/error.log.1居然达到了惊人的70GB……。进一步发现，某些不知什么原因批量提交错误数据的家伙造成了这个结果，随直接封IP。

问题是，apache怎么可能这么傻的把日志文件搞到这个体积，进一步搜索知道了应该使用这样的配置来限制日志文件的大小：

修改/etc/apache2/sites-available/default，将ErrorLog改为

ErrorLog "|/usr/sbin/rotatelogs ${APACHE_LOG_[......]继续阅读

发表在软件使用与程序设计 | 已关闭评论

Ubuntu 的.bashrc还是有点容量的，默认的.bashrc可以在/etc/skel下找到。

直接复制到自己的”~”目录就好了。[……]

发表在软件使用与程序设计 | 已关闭评论

这个事情有一点点tricky的味道，经过若干实验，发现比较靠谱的办法是这么办

cat test.fq | grep "^+$"| wc -l

第三行看来是个不错的标记啊。[……]

发表在生物信息学 | 已关闭评论

在处理生物序列数据的过程中，有些时候需要知道某个数据集的GC Content，如果手边有专门的软件最好，如果没有，其实大可以用简单的Linux命令行工具来大致的进行计算。

1. 计算FASTA文件中的总符号数量

cat test.fas | grep -v "^>" | tr -d "rn"| wc -m

2. 计算FASTA文件中的总GC数量

cat test.fas | grep -v "^>" | tr -d "rnATNatn" | wc -m

3. 计算FASTQ文件中的总符号数量

cat test.fq | awk[......]继续阅读

发表在生物信息学 | 已关闭评论

在处理生物信息学数据的过程中，有时会遇到这样的需求，需要从一个文件中剔除一部分满足条件的行，举例来说，在文件test中有很多的id，每行一个，我们希望把这些id中有重复的那些都彻底的除去，一个不留。这至少有两种办法，可以在完全不写程序的条件下来完成。

方法一：如果你不想要这些有重复的id的列表，那么

cat test | cut -f 2 | sort | uniq -u

就可以了，这里假设了我们的id都是在文件的第二列，并且文件是用t分割的文本。

方法二：如果你的文本稍微有那么点复杂，并且你想要的不仅是id的话，那么就得多费一道手续

cat test[......]继续阅读

发表在生物信息学 | 已关闭评论