上海锐翌生物科技有限公司

服务电话:021-51001612

邮箱:support@realbio.cn

技术课堂

MaAsLin | 教你分析微生物丰度相关性
发布时间:2017-04-14 14:56   点击率:

MaAsLin软件可基于线性模型进行多元关联分析,用于分析临床和微生物丰度或基因丰度的相关性。临床的数据可以是连续性的数值(例如年龄、体重),也可以是布尔类型的数值(粪便或粘膜样品)。其中,微生物丰度可以通过16S/ITS扩增子测序、功能基因测序获得,微生物的基因丰度可以通过宏基因组测序获得。
 

一、分析原理

第一步:Data是某个环境中菌群的丰度信息。使用Data数据集前需要进行归一化处理,即每个数值是在0到1之间的。MaAsLin会把Data数据集进行ArcSin Sqrt处理。


第二步:抽取一行Data数据(例如OTU1)作为响应变量,所有Metadata数据作为自变量,使用Boosting算法进行自变量的提取。如上图中把Sex自变量过滤了。

第三步:把上一步中抽取的一行Data数据和剩下的自变量做多元线性分析。统计出p值和Estimate值……

第四步:重复第二、三步来获得许多P值,再对这些p值进行校正,获得相应的Q值。基于不同的Q阈值,筛选出显著相关的。


二、软件安装
1. 安装R语言依赖包

agricolae, gam, gamlss, gbm, glmnet, inlinedocs, logging, MASS, nlme, optparse, outliers, penalized, pscl, robustbase共14个。

 

2. 下载MaAsLin软件包

下载路径:https://bitbucket.org/biobakery/maaslin/downloads/Maaslin_0.0.4.tar.gz

 

3. 安装

R CMD INSTALL Maaslin_X.Y.Z.tar.gz

 

4. 测试是否安装成功
> library(Maaslin)
> example(Maaslin)
如果没有报错就说明安装成功了。

 

三、输入文件
第一个文件PCL格式的文件(input.tsv):使用物种或基因的丰度信息表和metadata表合并成一个PCL格式的输入文件。使用的脚本maaslin/exec/merge_metadata.py,格式如下:
ID  Sample1 Sample2 Sample3 Sample4
metadata1   True    True    False   False
metadata2   1.23    2.34    3.22    3.44
metadata3   Male    Female  Male    Female
taxa1       0.022   0.014   0.333   0.125
taxa2       0.406   0.029   0.166   0.300
taxa3       0.571   0.955   0.500   0.575
注意:
第一行必须是样品的名和ID;
每一个metadata占一行;
物种或基因丰度所在行必须在metadata数据下面。

第二个文件config配置文件(input.read.config):格式如下
Matrix: Metadata
Read_PCL_Rows: -Weight
Matrix: Abundance
Read_PCL_Rows: Bacteria-
注意:
-Weight   :代表重第2行到行名称为Weight的所有行是Metadata;
Bacteria-  :代表重行名称为Bacteria到最后一行是AbundanceData。

运行及脚本:
./R/Maaslin.R -i input.read.config input.tsv outputdir


四、输出文件
重要的文件一:projectname-metadata.txt
筛选出的自变量和响应变量存在显著相关的coefficient、N、N not 0 、P值、Q值。

重要的文件二:projectname-metadata.pdf,展示如下: