上海锐翌生物科技有限公司

服务电话:021-51001612

邮箱:support@realbio.cn

技术课堂

HMMER:序列比对,我比BLAST更准确
发布时间:2017-11-03 17:34   点击率:
HMMER是基于隐马尔可夫模型,用于生物序列分析工作的一个非常强大的软件包,它的一般用途是识别同源蛋白或核苷酸序列和进行序列比对。与BLAST、FASTA等序列比对和数据库搜索工具相比,HMMER更准确。

1. 使用方式

HMMER可以在线访问,也可作为命令行工具进行本地下载和安装。

在线地址:http://www.ebi.ac.uk/Tools/hmmer/
本地下载地址:http://hmmer.org/



2. 常用程序

hmmbuild:使用多重比对序列构建HMM模型

命令
hmmbuild [-options] <hmmfile_out> <msafile>

输入文件msafile为多序列比对后的文件,支持很多生物数据格式如:CLUSTALW, SELEX, GCG MSF。
hmmbuild可以自动判断输入序列的类型(核酸或蛋白),用户可以制定输入序列的类型:
--amino:蛋白质比对序列
--dna:DNA比对序列
--rna:RNA比对序列

输出文件hmmfile_out一般命名为.hmm后缀,该结果HMM数据库,用户得不到太多可阅读信息。


hmmsearch:寻找相似序列

命令
hmmsearch [options] <hmmfile> <seqdb>

输入文件hmmfile为HMM模型。
比较序列文件可以是FASTA、EMBL/UniProt、Genbank格式。

输出选项:
-o:直接输出结果到文件,不是标准输出
--tblout:tblout格式输出
--domtblout:domtblout格式输出
--pfamtblout:pfamtblout格式输出

输出格式介绍:
> tblout格式


> domtblout格式


>pfamtblout格式


输出结果中分为两类,一类是针对序列的(full sequence),另一类是针对domain的(主要基于一条序列存在多个domain)。

结果按照E-values值从小到大排序,形式与blast类似。
其中target name是每个目标序列的名称;
query name是查询序列的名称;
score是比对得分,分值越高说明越相似;
E-value目标序列的期望值(统计意义);
最重要的是E-value值,值越小,越可信,相当于一个统计量。


hmmalign:使用HMM模型为线索进行多重比对

命令
hmmalign [-options] <hmmfile> <seqfile>

输入文件序列格式包括FASTA、EMBL、GenBank、UniProt。

输出比对文件格式包括Stockholm、Pfam、A2M、PSIBLAST。


phmmer:与blastp类似,使用一个蛋白质序列搜素蛋白质序列数据库

命令
phmmer [-options] <query seqfile> <target seqdb>

输出格式包括tblout、domtblout等。


更多详细信息参见用户指南:http://eddylab.org/software/hmmer3/3.1b2/Userguide.pdf