环境样品菌群分析示例
一、基础生物信息学分析
1. 优化序列统计
优化序列:根据样品barcode(标签序列)提取有效测序,序列中含有特异性扩增引物,长度大于可供分析标准的序列称为优化序列。
优化数据量统计及长度分布如下:
Statistics of trimed sequences
Trimed |
Samples |
Sequences |
Bases(bp) |
AverageLength(bp) |
|
|
|
|
|
Length distribution of trimed sequences
Length(bp) |
Sequences |
Percent |
1-300 |
|
|
301-400 |
|
|
401-500 |
|
|
2. 各样本序列数目统计
各样品序列统计见下表:
Sample |
Sequences |
Bases(bp) |
AverageLength(bp) |
A |
|
|
|
B |
|
|
|
C |
|
|
|
3. OTU生成
根据序列的相似性,将序列归为多个OTU(操作分类单元),以便后续分析。
OTU ID |
A |
B |
C |
D |
E |
F |
G |
H |
OTU1 |
149 |
410 |
27 |
252 |
45 |
124 |
136 |
101 |
OTU2 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
OTU3 |
2 |
3 |
14 |
23 |
1 |
5 |
17 |
29 |
OTU4 |
0 |
47 |
0 |
11 |
0 |
5 |
1 |
7 |
OTU5 |
19 |
28 |
82 |
9 |
57 |
45 |
303 |
9 |
OTU6 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
OTU7 |
0 |
182 |
94 |
24 |
14 |
5 |
12 |
60 |
OTU8 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
...... |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
4. 稀释曲线(rarefaction 分析)
根据第3条中获得的OTU数据,做出每个样品的Rarefaction曲线。本合同默认生成OTU相似水平为97%的rarefaction曲线。
rarefaction曲线结果示例:
5. 指数分析
计算各个样品的相关分析指数,包括:
丰度指数:ace\chao
多样性指数:shannon\simpson
覆盖度指数:Good’s Coverage
本合同默认生成OTU相似水平为97%的上述指数值。
多样性指数分析结果示例:
注:默认分析以上所列指数,如有特殊需要请说明。
6. 样品OTU分布及分类学信息
OTU产生后,统计各个样品含有OTU情况及每个OTU中含有序列的数目。同时,将所有序列与Silva库比对,得到序列的分类学信息。通过寻找更近祖先方法,得到每个OTU的分类学信息。本合同默认分析相似性水平为97%的OTU。
结果为一份xls文件,文件内容示例为:
第一列为OTU编号,第一行为各个样品名称,中间数字表示该列样品在此行OTU中所占的序列数目,更后一列为该行OTU的种属信息。
7. Shannon-Wiener曲线
利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线,反映各样本在不同测序数量时的微生物多样性。当曲线趋向平坦时,说明测序数据量足够大,可以反映样品中绝大多数的微生物信息。绘制默认水平为:97%。
例图:
二、标准生物信息学分析
根据各样品的OTU丰度大小排序作丰度分布曲线图。结果文件默认为PDF格式(其它格式请注明)。
请填写下表:(默认一个样品作一条曲线,一组样品作入一张图内,如需将多个样品合并请标注)
例图:
9. Specaccum物种累积曲线(大于10个样品)
物种累积曲线( species accumulation curves) 用于描述随着抽样量的加大物种增加的状况,是理解调查样地物种组成和预测物种丰富度的有效工具,在生物多样性和群落调查中,被广泛用于抽样量充分性的判断以及物种丰富度( species richness) 的估计。因此,通过物种累积曲线不仅可以判断抽样量是否充分,在抽样量充分的前提下,运用物种累积曲线还可以对物种丰富度进行预测。
10. OTU 比较venn图(共__1__组分析)
注:选择一组不多于五个样品,分析样品间OTU重合情况,将结果以VENN图形式展示。结果文件默认为PDF格式(其它格式请注明)。
请在表中填写各分析所选用样品名称:
组号 |
第一个样品 |
第二个样品 |
第三个样品 |
第四个样品 |
第五个样品 |
1 |
|
|
|
|
|
2 |
|
|
|
|
|
例图:
选取多个样品,进行PCA分析。结果文件默认为PDF格式(其它格式请注明)。
请在表中填写各分析所选用样品名称(横向一大组样品作入一张图内,其中样品又可划分为多个小组,不同小组间样品可以选择用相同或不同颜色标示):
组号 |
选用样品名称 |
颜色是否相同 |
小组1 |
小组2 |
小组3 |
1 |
|
|
|
|
2 |
|
|
|
|
例图:
12. PCoA分析(共__1__组分析)
选取多个样品,进行PCoA分析。结果文件默认为PDF格式(其它格式请注明)。
请在表中填写各分析所选用样品名称(横向一大组样品作入一张图内,其中样品又可划分为多个小组,不同小组间样品可以选择用相同或不同颜色标示):
组号 |
选用样品名称 |
颜色是否相同 |
小组1 |
小组2 |
小组3 |
1 |
|
|
|
|
2 |
|
|
|
|
例图:
13. 多样品相似度树状图 (共__1__组分析)
注:选定需要分析的多个样品作为一组对比分析,使用bray curtis算法,比较该组分析中各样品在OTU (97%)水平上的群落结构相似度并作出树状图。结果文件默认为PDF格式(其它格式请注明)。
请在表中填写各组所选用样品名称(横向一大组样品作入一张图内,其中样品又可划分为多个小组,不同小组间样品可以选择用相同或不同颜色标示):
组号 |
选用样品名称 |
颜色是否相同 |
小组1 |
小组2 |
小组3 |
1 |
|
|
|
|
2 |
|
|
|
|
例图:
14. 非度量多维尺度分析(NMDS)(共 __1__组分析)
选取多个样品,进行NMDS分析。结果文件默认为PDF格式(其它格式请注明)。
请在表中填写各组分析所选用样品名称:
例图:
注:选定一个或多个需要分析的样品,选定一个分类学水平,按照相应多样性信息作图,反应各样品的群落结构。结果文件默认为PDF格式(其它格式请注明)。
可选分类学水平:门、纲、目、科、属;同一组样品选择多个分类学水平为多组分析。
请依照给出的分类学水平,填写下表:(一组样品在一个分类学水平下作一张图)
组号 |
选用样品名称(一个或多个) |
分类学水平 |
1 |
|
|
2 |
|
|
例图:
16. 样品聚类树与柱状图组合分析(默认提供门的水平)
左边是样品间基于群落组成的层次聚类分析,右边是样品的群落结构柱状图。
17. 常规Heatmap图(共__1__组分析)
选择多个样品,作出其在选定的分类学水平上群落结构 Heatmap图。结果文件默认为PDF格式(其它格式请注明)。结果可有彩虹色和黑红色两种供选择,默认为彩虹色,如需选其它颜色请标明。
可选分类学水平:门、纲、目、科、属、OTU(97%)
如分析单元数目较多,默认使用序列数较多的前100个种属或OTU作图,如有其它要求请注明。
请依照给出的分类学水平,填写下表分析内容:(一组样品作入一张图内)
例图:
三、高级生物信息学分析
18. 单样品分类学树状图(共__1__组分析)
注:选择单个样品,根据该样品所有序列比对出的taxonomy信息,作出相应树状图。结果文件默认为PDF格式(其他格式请注明)。请在此列出需要分析的样品名称:
例图:
19. 多样品分类学比较树状图(共 __1__ 组分析)
注:选择多个样品,将各个样品所有序列比对出的taxonomy信息,作在一张相应树状图中。结果文件默认为PDF格式(其他格式请注明)。请在表中填写各分析所选用样品名称:
例图:
20. 系统发生进化树(确定分类学水平,列形或圈形选其一)
通过对单个样品的分类学水平的指定,绘制进化树。
可选分类学水平:门、纲、目、科、属、OTU(97%)。
选定分类学水平: ;作图形式: 。
例图:
21. 含系统发育树Heatmap图(共__1__ 组分析)
选择部分或全部样品,作出OTU(97%)水平上群落结构 Heatmap图。Heatmap图中左侧含有以OTU代表序列作出的系统发育树,树枝按照该OTU所属的门水平进行颜色区分。
结果文件默认为PDF格式(其他格式请注明)。图形颜色默认为彩虹色,可选颜色类型:黑红,黄红。
如OTU分析单元数目较多,默认使用序列数较多的前100个OTU作图,如有其他需求请注明。
请填写下表分析内容:
图例:
22. RDA/CCA分析(共__1__组分析)
利用冗余分析(RDA)可以反映在OTU的水平或者某生物学分类水平上各样品中菌群与环境因子之间关系。
请填写样品分组信息表:
请以Excel表形式提供环境因子,格式如下:
例图:
注:将两个条件下的样品组对比分析,在选定的分类学水平上,找出两组表达差异的成分。结果文件默认为Excel格式。
可选分类学水平:门、纲、目、科、属,OTU(97%)
请依照给出的分类学水平,填写下表:(一组对比分析做一份表格。)
组号 |
条件一选用样品名称 |
条件二选用样品名称 |
分类学水平 |
1 |
|
|
|
2 |
|
|
|
表例:
24. 组间相似性分析(adonis分析-基于距离的多变量方差分析)(共 1 组分析)
Adonis分析是一种对半度量或度量距离矩阵的离差平方和进行区分的非参数统计学方法,在生态学群落分析中也即是对变化的来源进行划分,并使用置换检验对划分的统计学意义进行显著性分析。
选择两个或两个以上条件下的样品组对比分析,在选定分类学水平上,找到组别中差异成分。结果文件默认为Excel格式。
可选分类学水平:门、纲、目、科、属,OTU(97%)
请依照给出的分类学水平,填写下表:(一组对比分析做一份表格。)
组号 |
条件一选用样品名称 |
条件二选用样品名称 |
条件三选用样品名称 |
条件四选用样品名称 |
分类学水平 |
1 |
|
|
|
|
|
2 |
|
|
|
|
|
表例:
25. 相似相分析检验(Anosim)(共 __1__ 组分析)
相似性分析检测两组或两组以上的样品间是否有显著性差异,从而推断分组条件对环境样品的影响程度。
选择两个或两个以上条件下的样品组对比分析,在选定分类学水平上,找到组别中差异成分。结果文件默认为Excel格式。
可选分类学水平:门、纲、目、科、属,OTU(97%)
请依照给出的分类学水平,填写下表:(一组对比分析做一份表格。)
组号 |
条件一选用样品名称 |
条件二选用样品名称 |
条件三选用样品名称 |
条件四选用样品名称 |
分类学水平 |
1 |
|
|
|
|
|
2 |
|
|
|
|
|
表例:
26. (Un)weighted Unifrac PCoA分析(共__1__组分析)
选取全部或者多个样品,进行 Weighted unifrac PCoA/Unweighted unfrac PCoA分析。结果文件默认为PDF格式(其他格式请注明)。
请在表中填写各分析所选用样品名称:
例图:
27. (Un)weighted Unifrac Tree 分析(共 __1__组分析)
选取全部或者多个样品,进行 Weighted unifrac Tree/Unweighted unfrac Tree分析。结果文件默认为PDF格式(其他格式请注明)。
例图:
28. UniFrac距离箱式图分析(共__1__组分析)
UniFrac即利用各样品序列间的进化信息来计算样品间距离,反映环境样品在进化树中是否有显著的微生物群落差异。
箱线图(Boxplot)是利用数据中的五个统计量:更小值、第一四分位数、中位数、第三四分位数与更大值来描述数据的一种方法,它也可以粗略地看出数据是否具有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。
选取多个分组,进行箱式图分析。结果文件默认为PDF格式(其他格式请注明)。
组号 |
条件一选用样品名称 |
条件二选用样品名称 |
条件三选用样品名称 |
条件四选用样品名称 |
1 |
|
|
|
|
2 |
|
|
|
|
例图:
29. 基于UniFrac的db-RDA分析(共__1__组分析)
选取全部或者多个样品,进行 Weighted unifrac db-RDA/Unweighted unfrac db-RDA分析。结果文件默认为PDF格式(其他格式请注明)。
组号 |
条件一选用样品名称 |
条件二选用样品名称 |
条件三选用样品名称 |
条件四选用样品名称 |
1 |
|
|
|
|
2 |
|
|
|
|
例图:
30. 基于unifrac NMDS分析(共__1__组分析)
选取全部或者多个样品,进行 Weighted unifrac NMDS/Unweighted unfrac NMDS分析。结果文件默认为PDF格式(其他格式请注明)。
组号 |
条件一选用样品名称 |
条件二选用样品名称 |
条件三选用样品名称 |
条件四选用样品名称 |
1 |
|
|
|
|
2 |
|
|
|
|
例图:
31. LDA Effect Size(LEfSe分析)(共__1__组分析)
LEfSe是一种用于发现高维生物标识和揭示基因组特征的算法。
选取多个样品,进行LEfSe分析。结果文件默认为PDF格式(其它格式请注明)。
请在表中填写各组分析所选用样品名称:
例图:
|