上海锐翌生物科技有限公司

服务电话:021-51001612

邮箱:support@realbio.cn

技术课堂

研究微生物,这些高通量测序术语不可不知
发布时间:2017-04-26 14:56   点击率:

近年来,基于测序数据的分析促使微生物研究越来越深入,这将微生物高通量测序推入了新的高潮,也点燃了研究者跃跃欲试的探索之梦。对于生物类专业的孩纸们来说,基因测序早已不是什么高深莫测的黑技术,然而,可能有不少童鞋对相关术语还比较陌生,在对着测序报告做功课时仿佛看到天书一般。今天就和大家讲讲微生物高通量测序中的一些常见概念。

1、微生物与微生物组
通常所说的微生物指的是某一种特定的微生物,而微生物组指的是某一环境中全部的微生物群落,不是单一的物种。单菌基因组测序是以单种微生物为研究对象,而16S、18S、ITS、宏基因组、宏转录组等技术的研究对象均为微生物组。

 

2、高通量测序
高通量测序(High-throughput sequencing)又称下一代测序(Next generation sequencing),是指一次对几十万到几百万条核酸分子进行序列测定,是对传统Sanger测序革命性的改变。

 


3、16S rRNA
16S rRNA是细菌核糖体的RNA的一个亚基,存在于所有细菌染色体基因中。

 


4、16S rDNA
16S rDNA基因是细菌染色体上编码rRNA相对应的DNA序列,同样存在于所有细菌染色体基因中。该基因全长1500bp左右,有9个高变区。通过PCR扩增某一高变区或某几段高变区可以对群落中的微生物进行检测和鉴定。16S rDNA测序和16S rRNA测序是一回事,只是说法不同。

 

 

5、OTU
OTU(operational taxonomic units),即操作分类单元。通过一定的距离度量方法计算两两不同序列之间的距离度量或相似性,继而设置特定的分类阈值,获得同一阈值下的距离矩阵,进行聚类操作,形成不同的分类单元。OTU是16S、18S、ITS高通量测序方法中的基本分析单位,一个样品中通常会有几百甚至几千个OTU,每个OTU都包含很多条相似性≥97%的序列。

 

 

6、Index/barcode
Index和barcode是标签序列的两种不同叫法,通常包含6个或8个碱基,在DNA建库过程中添加在引物序列外侧,接头序列内侧,用以区分不同样品。

 


7、测序深度
测序深度是指测序得到的总碱基数与待测基因组大小的比值。


8、覆盖深度
覆盖深度指的是测序获得的序列占整个基因组的比例。

 


9、reads
reads是一次测序中仪器读取的核苷酸片段,不是gene,众多reads经过拼接可形成gene甚至是基因组全序列。

 


10、Raw reads
Raw reads也称原始数据,指的是下机后产生的未经过滤、质控的所有序列。


11、Clean reads
Clean reads是指对raw reads进行质控,去除接头序列、低质量序列、杂质序列后剩下的序列。
 

 

12、Q20/Q30
高通量测序过程中,每个碱基都有相应的质量值。Q20/Q30指的是测序过程中,对所识别的碱基给出的错误概率。如果质量值是Q20,表明错误识别的概率是1%,正确率是99%;如果质量值是Q30,表明错误识别的概率是0.1%,正确率是99.9%。在实际项目中,Q20/Q30的值表示质量值≥20或30的碱基所占比例。

 

 

13、GC含量
GC含量指的是一条核苷酸序列中G(鸟嘌呤)和C(胞嘧啶)碱基占总碱基数的比例。正常情况下,GC含量在40-60%之间。GC含量太低或太高,PCR扩增难度都会大大增加。
 

 

14、相对丰度
相对丰度是高通量测序中反应一个样品里某一物种或某一基因占所有物种或基因比例的术语。可以认为,相对丰度越大,这个物种或基因的量越多。在微生物扩增子测序、宏基因组测序中,相对丰度并不代表基因表达水平;但在宏转录组测序中,基因相对丰度即基因表达水平。


15、De Novo测序
De Novo测序也叫从头测序,是指不需要任何基因序列信息即可对某个物种进行测序的技术。通过生物信息学方法对序列进行拼接、组装,从而获得该物种的基因组序列图谱。
 

 

16、Contig
根据reads之间的overlap(重叠区),将多个短reads拼接获得较长的序列,成为contig(重叠群)。
 

 

17、Scaffold
根据contig之间的overlap(重叠区),将多个contig连接起来形成更长的scaffold序列。

 

 

18、N50/N90
评估基因组装质量好坏的指标。具体定义为:将一个样品中所有contig序列长度按照从大到小顺序进行排列累加,当累加到第N个contig时,总contigs长度第一次超过所有contigs总长度的50%或90%时,此时的第N个contig的长度就是N50或N90的值。值越大,表示组装质量越好。
 

 

19、KO
KO是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组。每个基因对应一个KO,但一个KO可能包含多种基因。


20、KEGG / eggNOG / COG
KEGG、eggNOG、COG是3种对基因进行代谢功能注释的数据库,KEGG数据库同时包含基因组、化学和系统功能信息,eggNOG和COG是基因直系同源簇。三种数据库中包含的代谢通路相似,比对方式均为蛋白质比蛋白质。但从表现形式上看,eggNOG和COG的注释结果更相近。

▲ KEGG

 

▲ eggNOG

 

▲ COG

 

 

21、Gap
Gap指的是DNA测序中位于同一染色体的两个叠连群之间终端缺失的部分。

 

 

22、SNP
SNP(single nucleotide polymorphism)即单核苷酸多态性,主要是指在基因组水平上有单个核苷酸变异所引起的DNA序列多态性。SNP所表现的多态性只限于单个碱基的变异,包括插入、缺失、转换、颠换。微生物基因组中的SNP可以用于群体进化研究、分歧时间计算、基因组选择压力分析和菌株分型等。
 

 

23、InDel
InDel(insertion-deletion)是插入缺失标记,指的是两种亲本中在全基因组中的差异。相对另一个亲本而言,其中一个亲本的基因组中有一定数量的核苷酸插入或缺失,根据该位点设计PCR引物,这就是InDel标记。
 

 

24、SSR
SSR(simple sequence repeat)叫做微卫星DNA,也称简单重复序列,是指基因组中由1-6个核苷酸组成的基本单位重复多次构成的一段DNA,长度一般在几十bp左右。


25、Run / cell / lane
Run、cell、lane可以看做是高通量测序仪的测序容量单位,1个run就是一次运行的测序量,每个cell上通常有多个通道,可以测不同的样品,这些通道就是lane。从大小来看,run≥cell≥lane。以Miseq为例,1个run只包含1个cell,而一个cell只包含1条lane。以Hiseq 2500为例,1个run包含2个cell,而每个cell有8条lane。

26、R语言
R语言是一个免费、开源的软件,是用于统计计算和作图的优秀工具,也是国际上认可的主流、专业、优秀的统计软件。常见的几种高通量测序分析内容多数是通过R语言完成的。