上海锐翌生物科技有限公司

服务电话:021-51001612

邮箱:support@realbio.cn

技术讲堂

VSEARCH——宏基因组分析工具usearch的优秀替代方案
发布时间:2017-02-17 15:09   点击率:
作为生信分析的常用软件,usearch在序列搜索、聚类、去重、去嵌合体等序列操作有非常重要的作用。它由Robert Edgar开发,目前已有4000+论文使用,并且它的32位版本是可以免费下载使用的,这方便了科研工作者做小规模的宏基因组分析。但32位支持的最大内存数不超过4GB,而usearch的64位需要付费,因此当面对序列体积超过4GB的分析工作时,部分工作者没有了更多的选择。

此时我们需要请出本文的主角——vsearch,它是一款开源软件,64位版本也不必付费,这意味着使用者可以利用vsearch来搭建宏基因组分析平台,在处理大数据量的序列搜索聚类时也可以游刃有余。下面我们就来看看这样一款开源软件有哪些优秀特质,并简单了解一下它的运行方法。

vsearch的主页:
https://github.com/torognes/vsearch

一、vsearch的优点

1、程序运行参数及功能与usearch一致
这一点非常赞,毕竟使用两个不同的软件往往需要付出一些额外的学习成本,比如参数设置就是其中的大头。vsearch与usearch(7或者更低版本,usearch 8有部分功能已实现)参数几乎一致(绝大部分的常用参数完全一样),包括去重(全长或前体)、反转互补、全局比对搜索、片段截取和排序等常用参数完全一致。需要注意的是,它目前还不支持氨基酸序列的相关操作,后续会逐渐加入。


根据vsearch官方文档来看,它采用的是矢量化的搜索方式,熟悉R或者Matlab的读者可能会比较熟悉这种向量化操作(有兴趣的读者可以看看这里对矢量化的解释:https://en.wikipedia.org/wiki/Vectorization),核心算法为SIMD,辅之以多线程,得以实施高精度高效率的序列比对操作。得益于此,vsearch可以获得比usearch更好的比对效果,特别是针对分区段的比对情况。

Vsearch的平台通用性也较强,针对Windows/MacOSX/Linux都有相应的版本。


下面是一个简单的测试,可看出vsearch在部分参数下的性能要优于usearch(特别是序列文件大于4GB时)可作为替代方案:

 

2、免费且开源
开源,意味着有C语言开发经验的使用者可以在协议授权范围内自己优化算法,提高程序运行效率。

3、持续性的更新
好的软件离不开开发者的持续更新,对bug的及时修复。截至本文发稿前,软件仍然在不断更新,预计它会越来越完善。

二、vsearch的使用
下面我们来简单看一下vsearch的运行方法。

./vsearch --usearch_global queries.fsa --db database.fsa --id 0.9 --alnout alnout.txt
在上面的例子中,vsearch从文件database.fsa中以90%的相似性搜索目标序列,并输出到文本文件alnout.txt。完全与usearch一样!

更详细的参数在这里:

https://github.com/torognes/vsearch/blob/master/man/vsearch.1

 

还有我们更关心的搜索参数设置:
关于vsearch与biom文件的对接转换:
vsearch输出的.uc文件可直接用于QIIME包或者任何其他使用uc文件的分析包,vsearch2.2及之后的版本则直接输出OTU丰度表,或其他向下兼容的数据格式。

vsearch相关文献:
Rognes T, Flouri T, Nichols B, Quince C, Mahé F. (2016) VSEARCH: a versatile open source tool for metagenomics. PeerJ 4:e2584 doi: 10.7717/peerj.2584