上海锐翌生物科技有限公司

服务电话:021-51001612

邮箱:support@realbio.cn

技术课堂

如何用ShortBRED进行宏基因组分析?
发布时间:2017-07-13 11:32   点击率:
ShortBRED,即Short, Better Representative Extract Dataset,可对感兴趣的蛋白家族进行分析,计算蛋白丰度。该软件由哈佛大学陈曾熙公共卫生学院The Huttenhower Lab研发,对鸟枪宏组学测序数据具有高度特异性。


http://huttenhower.sph.harvard.edu/shortbred

ShortBRED_Identify先通过CD-HIT将感兴趣的蛋白聚类成家族,再通过MUSCLE提取每一家族的共有序列。然后将各个家族的共有序列之间进行blast比对,并将共有序列数据库与参考蛋白数据库进行blast比对,筛选出每一家族中短的具有高识别性的多肽序列作为marker。只需对感兴趣的蛋白执行一次上述过程,即可产生一个可重复使用的marker集合。ShortBRED_Quantify将宏基因组或转录组数据与得到的marker集合比对,即可得出相关蛋白的丰度。


ShortBRED的工作原理

shortBRED_identify,为功能基因家族优化短多肽marker序列。
输入:感兴趣的蛋白(左)和参考蛋白数据库(右)。


第一步:使用CD-HIT将感兴趣的蛋白聚类成家族,然后使用MUSCLE提取每一蛋白家族中的共有序列(粗体)。


第二步:识别出共有序列之间的,以及共有序列和参考蛋白之间的重叠序列(红色部分)。重叠序列就表示非唯一多肽。


第三步:为每一蛋白聚类家族建立一个或多个marker。如果存在一个与参考蛋白序列以及共有序列都不重叠的区域,则将该区域内的序列作为一个true marker。


如果存在一个长度达到要求的且不与参考蛋白序列或者共有序列完全重叠的区域,则将该区域内的序列作为junction marker。


如果完全重叠,则取与其他序列重叠部分尽可能少的序列作为quasi marker。将quasi marker聚类成家族。



ShortBRED_Quantify,量化宏组学数据中功能基因家族的相对丰度。
输入:宏组学测序得到的短读长序列(左)和shortBRED_identify得到的感兴趣蛋白的marker(右)。


第一步:使用USEARCH将读长序列与marker进行比对。


第二步:将比对结果量化,得到蛋白家族的相对丰度表。



ShortBRED的安装方法 

● 使用Mercurial进行安装:
$ hg clone https://bitbucket.org/biobakery/shortbred

● 你也可以从Bitbucket(https://bitbucket.org/biobakery/shortbred/get/tip.zip)下载源代码。

● 运行前请确保脚本运行环境的中的依赖关系得到满足。shortBRED依赖的环境有Python、BLASTP、USEARCH、MUSCLE、CD-HIT。


小试shortBRED

从shortBRED自带的样本数据中创建marker。将你的工作目录转到你解压ShortBRED所在的目录并键入以下命令:
$ ./shortbred_identify.py --goi example/input_prots.faa --ref example/ref_prots.faa --markers mytestmarkers.faa --tmp example_identify
由于样本数据很小,所以以上命令很快就会执行完毕,生成的名为mytestmarkers.faa的文件包含一系列的marker,你可以打开该文件以对marker有个感性的认识。

如果你想使用ShortBRED-Quantify来测试你新生成的marker,你可以键入以下命令:
$ ./shortbred_quantify.py --markers mytestmarkers.faa --wgs example/wgs.fna --results results.txt --tmp example_quantify
生成的results.txt文件内容就是wgs.fna中蛋白家族的相对丰度。