上海锐翌生物科技有限公司

服务电话:021-51001612

邮箱:support@realbio.cn

技术课堂

microPITA | 宏基因组测序前,你可以这样筛选样本
发布时间:2017-10-20 18:53   点击率:
辛辛苦苦收集了好多样本,想给它们都来个彻底的宏基因组测序。奈何科研诚可贵,毛爷爷最清楚。相较于16S rDNA测序,宏基因组测序价格昂贵,令许多科研宝宝爱而不敢靠近。别急,小锐给大家支个省钱的招——使用microPITA筛选出具有代表性的、你感兴趣的样本,再进行宏基因组测序。当然,再奉上教程一份!


配置
microPITA是python的一个模块,在使用之前需要安装python及以下模块:

1. Python 2.x
    http://www.python.org/download/
2. blist
    http://pypi.python.org/pypi/blist/
3. NumPy
    http://numpy.scipy.org/
4. SciPy
    http://www.scipy.org/
5. PyCogent
    http://pycogent.sourceforge.net/install.html
6. mlpy
    http://mlpy.sourceforge.net/
7. mpi4py
    http://mpi4py.scipy.org/
8. biome support
    http://biom-format.org/


文件格式
microPITA 支持2种数据格式:pcl和biom文件。Biom文件大家都很熟悉,主要来介绍一下pcl文件:


默认的格式如上图所示:
1. 第一行为样品的ID。
2. 之后样品的相关信息,如:分组信息。
3. 在元数据之后则是数据了。
4. 第一列应为对应行的名称。如果名称中有级别关系,则使用‘|’进行分割。
5. 每一列用制表符切割。


使用方法
microPITA有多种基础的筛选方法供我们选择:4种无监督方法,2种有监督方法。

无监督方法
diverse:挑选α多样性最高的样本。
extreme:根据β多样性挑选最极端的样本。
representative:根据β多样性挑选最能反映整体差异特征的代表性样本。

这3种方法在使用时如下图:


图中--lastmeta 是使用pcl文件时需要使用的参数,用来指出最后一行的元数据。
-m:选择筛选的方法。
Input/Test.pcl,Input/Test.biom是输入文件。
output.txt是结果文件。

还有另一种无监督方法--features:给定一组特征物种等,根据丰度来挑选特征样本。


相较于上面的筛选方法,该方法需要添加一个参数--targets用于读入包含特征物种的文件。该文件中每个特征物种要单独一行。如下:


有监督方法
Distinct:根据表型/分组特征,挑选表型/分组之间β多样性距离最大的样本。
Discriminant:根据表型/分组特征,挑选各表型/分组中距离中心点最近的样本。

--label 用于指出有分组信息的行。

一些常用参数
-n 输出样本数量。
--id 如果样品id不在第一行,使用该参数来指定id行。
--delim 修改默认的定界符(制表符)。
--featdelim 修改物种名中默认的分级符(‘|’)。


结果
结果很简单,直接输出样本的id。