一文读懂微生物扩增子16s测序[通俗易懂]

您所在的位置:网站首页 测序是干嘛的 一文读懂微生物扩增子16s测序[通俗易懂]

一文读懂微生物扩增子16s测序[通俗易懂]

2024-01-18 22:46| 来源: 网络整理| 查看: 265

大家好,又见面了,我是你们的朋友全栈君。

微生物多样性测序结果如何看?

做过16s测序的小伙伴们都知道

测完之后会拿到一份结果报告

但这并不代表可以开始写文章了

看似一大堆数据图表却不知如何下手

这是很多人头疼的地方

那么怎样给报告中的数据赋予灵魂

让它真正成为对你有帮助的分析呢?

一文扫除困惑

在这里插入图片描述在这里插入图片描述

首先什么是16S rRNA?

16S rRNA 基因是编码原核生物核糖体小亚基的基因,长度约为1542bp,其分子大小适中,突变率小,是细菌系统分类学研究中最常用和最有用的标志。

16S rRNA基因序列包括9个可变区和10个保守区,保守区序列反映了物种间的亲缘关系, 而可变区序列则能体现物种间的差异。

16S rRNA基因测序以细菌16S rRNA基因测序为主,核心是研究样品中的物种分类、物种丰度以及系统进化。

二代高通量测序原理

目前二代测序是一个边合成边测序的过程,使用的是荧光可逆终止子。每个可逆终止子的碱基3’端都有一个阻断基团,而在侧边带有一种荧光。由于有4种不同的碱基(ATCG),因此也会有对应4种不同颜色的荧光。开始扩增每次结合上一个碱基,DNA的扩增便会停止,此时能收到一种荧光信号。然后放试剂除去阻断基团,进行下一个碱基的结合,以此类推得到一连串的荧光信号组合序列。而根据荧光的颜色我们便可以确定每一个位点的基因型,即可以得到这一段DNA片段的序列。

在这里插入图片描述在这里插入图片描述

环境样品高通量分析需要重复么?

在进行实验设计前,这是有些小伙伴面临的一个问题。环境样本由于来源和条件不完全可控,每个样品之间会存在很大的差异,即便是相同样本的不同取样时间和部位也会存在一定的差异。

基于高通量测序主要是为了了解样品的菌群构成和功能分析,以及寻找不同环境之间的差异,包括菌和功能基因以及代谢。如果仅做单一样本,很可能结论只能代表这个单一取样样本的信息,无法排除不同样本重复之间的差异,也就可能得不到真正代表环境差异的结果。

所以环境样品不仅要重复而且还应该以分组方式取尽量多的样本以全面的代表一个环境条件下的各种变异情况。

测序区段如何选择

确定做重复后,又面临该怎么选择测序区段的问题。目前市面上有v1-v3区/v3-v4区/v4区等可供选择。

16S rRNA编码基因序列共有9个保守区和9个高可变区。其中,V4区其特异性好,数据库信息全,我们通过大量的测序试验证明用v4区扩增出菌群结果的可以很好的反应样本的菌群结构用于后续的数据建模分析,是细菌多样性分析注释的最佳选择。

在这里插入图片描述在这里插入图片描述

基本确定好后,就要着手开始实验,实验完送样又是个问题,以往给测序公司送样往往是低温运输,且不说麻烦,还要提心吊胆怕运输过程会不会有什么问题。为此我们免费提供常温保存取样盒,就不用有这样的顾虑,取样及运输全程都只需要常温即可。

16s分析结果详解

很多小伙伴有过这样的经历,在拿到公司出具的报告之后,仍然一头雾水,几十页的报告内容看着丰富却不知该怎么运用。我们一起来理一下关键图表的含义。

OTU是我们要搞清的一个重要概念,可以说是后续分析的基石。

OTU(operational taxonomic units) 是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。通常按照 97% 的相似性阈值将序列划分为不同的 OTU,每一个 OTU 通常被视为一个微生物物种。相似性小于97%就可以认为属于不同的种,相似性小于93%-95%,可以认为属于不同的属。样品中的微生物多样性和不同微生物的丰度都是基于对OTU的分析。

有了OTU这个概念之后,就不难理解下表。对每个样本的测序数量和OTU数目进行统计,并且在表栺中列出了测序覆盖的完整度。

在这里插入图片描述在这里插入图片描述

其中SampleName表示样本名称;SampleSize表示样本序列总数;OTUsNumber表示注释上的OTU数目;OTUsSeq表示注释上OTU的样本序列总数。

Coverage是指各样品文库的覆盖率,其数值越高,则样本中序列没有被测出的概率越低。该指数实际反映了本次测序结果是否代表样本的真实情况。计算公式为:C=1-n1/N 其中n1 = 只含有一条序列的OTU的数目;N = 抽样中出现的总的序列数目。

下表是对每个样本在分类字水平上的数量进行统计,并且在表栺中列出了在每个分类字水平上的物种数目

在这里插入图片描述在这里插入图片描述

其中SampleName表示样本名称;Phylum表示分类到门的OTU数量;Class表示分类到纲的OTU数量;Order表示分类到目的OTU数量;Family表示分类到科的OTU数量;Genus表示分类到属的OTU数量;Species表示分类到种的OTU数量。

我们可以看到绝大部分的OTU都分类到了属(Genus),也有很多分类到了种(Species)。但是仍然有很多无法完全分类到种一级,这是由于环境微生物本身存在非常丰富的多样性,还有大量的菌仍然没有被测序和发现。

当然,对这些种属的构成还可以进行柱状图展示:

在这里插入图片描述在这里插入图片描述

横坐标中每一个条形图代表一个样本,纵坐标代表该分类层级的序列数目或比例。同一种颜色代表相同的分类级别。图中的每根柱子中的颜色表示该样本在不同级别(门、纲、目等)的序列数目,序列数目只计算级别最低的分类,例如在属中计算过了,则在科中则不重复计算。

我们还需要对样本之间或分组之间的OTU进行比较获得韦恩图:

在这里插入图片描述在这里插入图片描述

样品构成丰度

稀释曲线

微生物多样性分析中如何验证测序数据量是否足以反映样品中的物种多样性?

稀释曲线(丰富度曲线)可以派上用场。它是用来评价测序量是否足以覆盖所有类群,并间接反映样品中物种的丰富程度。

不免有同学有疑惑,稀释曲线怎么来的?

它是利用已测得16S rDNA序列中已知的各种OTU的相对比例,来计算抽取n个(n小于测得reads序列总数)reads时出现OTU数量的期望值,然后根据一组n值(一般为一组小于总序列数的等差数列)与其相对应的OTU数量的期望值做出曲线来。

至此,我们虽然知道了稀释曲线的由来,那么这个五彩缤纷的稀释曲线该怎么看呢?

当曲线趋于平缓或者达到平台期时也就可以认为测序深度已经基本覆盖到样品中所有的物种,增加测序数据无法再找到更多的OTU;

反之,则表示样品中物种多样性较高,还存在较多未被测序检测到的物种。

在这里插入图片描述在这里插入图片描述

横坐标代表随机抽取的序列数量;纵坐标代表观测到的OTU数量。样本曲线的延伸终点的横坐标位置为该样本的测序数量。

Shannon-Winner曲线

Shannon-Wiener 曲线,是利用shannon指数来进行绘制的,反映样品中微生物多样性的指数,利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线,以此反映各样本在不同测序数量时的微生物多样性。

当曲线趋向平坦时,说明测序数据量足够大,可以反映样品中绝大多数的微生物物种信息。

在这里插入图片描述在这里插入图片描述

横坐标代表随机抽取的序列数量;纵坐标代表的是反映物种多样性的Shannon指数,样本曲线的延伸终点的横坐标位置为该样本的测序数量。

其中曲线的最高点也就是该样本的Shannon指数,指数越高表明样品的物种多样性越高。

好奇的同学又有疑问,Shannon指数怎么算的?

这里有Shannon指数的公式:

在这里插入图片描述在这里插入图片描述

其中,Sobs= 实际测量出的OTU数目;

ni= 含有i 条序列的OTU数目;N = 所有的序列数。

Rank-Abundance曲线

该曲线用于同时解释样品多样性的两个方面,即样品所含物种的丰富程度和均匀程度。

在这里插入图片描述在这里插入图片描述

横坐标代表物种排序的数量;纵坐标代表观测到的相对丰度。

样本曲线的延伸终点的横坐标位置为该样本的物种数量

物种的丰富程度由曲线在横轴上的长度来反映,曲线越宽,表示物种的组成越丰富;

物种组成的均匀程度由曲线的形状来反映,曲线越平坦,表示物种组成的均匀程度越高。

如果曲线越平滑下降表明样本的物种多样性越高,而曲线快速陡然下降表明样本中的优势菌群所占比例很高,多样性较低。

但一般超过20个样本图就会变得非常复杂而且不美观!所以假如没超过20个样可以考虑该图哦~

Alpha多样性(样本内多样性)

Alpha多样性是指一个特定区域或者生态系统内的多样性,常用的度量指标有Chao1 丰富度估计量(Chao1 richness estimator) 、香农 – 威纳多样性指数(Shannon-wiener diversity index)、辛普森多样性指数(Simpson diversity index)等。

计算菌群丰度:Chao、ace;

计算菌群多样性:Shannon、Simpson。

Simpson指数值越大,说明群落多样性越高;Shannon指数越大,说明群落多样性越高。

在这里插入图片描述在这里插入图片描述

看了那么多指数,可能觉得有点晕,到底每个指数是什么意思呢?

当然要解释下咯:

Chao1:是用chao1 算法计算群落中只检测到1次和2次的OTU数估计群落中实际存在的物种数。Chao1 在生态学中常用来估计物种总数,由Chao (1984) 最早提出。Chao1值越大代表物种总数越多。

Schao1=Sobs+n1(n1-1)/2(n2+1)

其中Schao1为估计的OTU数,Sobs为观测到的OTU数,n1为只有一条序列的OTU数目,n2为只有两条序列的OTU数目。

Shannon:用来估算样品中微生物的多样性指数之一。它与 Simpson 多样性指数均为常用的反映 alpha 多样性的指数。Shannon值越大,说明群落多样性越高。

Ace:用来估计群落中含有OTU 数目的指数,由Chao 提出,是生态学中估计物种总数的常用指数之一,与Chao1 的算法不同。

Simpson:用来估算样品中微生物的多样性指数之一,由Edward Hugh Simpson ( 1949) 提出,在生态学中常用来定量的描述一个区域的生物多样性。Simpson 指数值越大,说明群落多样性越高。

在这里插入图片描述在这里插入图片描述

Alpha多样性指数差异箱形图

分别对 Alpha diversity 的各个指数进行秩和检验分析(若两组样品比较则使用 R 中的wilcox.test 函数,若两组以上的样品比较则使用 R 中的 kruskal.test 函数),通过秩和检验筛选不同条件下的显著差异的 Alpha Diversity指数。

在这里插入图片描述在这里插入图片描述

Beta多样性分析(样品间差异分析)

也许我们有听说Beta多样性在最近10年间成为生物多样性研究的热点问题之一。具体解释下:

Beta多样性度量时空尺度上物种组成的变化, 是生物多样性的重要组成部分, 与许多生态学和进化生物学问题密切相关!

PCoA分析

PCoA(principal co-ordinates analysis)是一种研究数据相似性或差异性的可视化方法,通过一系列的特征值和特征向量进行排序后,选择主要排在前几位的特征值,PCoA 可以找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样品点之间的相互位置关系,只是改变了坐标系统。

在这里插入图片描述在这里插入图片描述

每一个点代表一个样本,相同颜色的点来自同一个分组,两点之间距离越近表明两者的群落构成差异越小。

另一种相似的是PCA分析

主成分分析(Principal component analysis)PCA 是一种研究数据相似性或差异性的可视化方法,通过一系列的特征值和特征向量进行排序后,选择主要的前几位特征值,采取降维的思想,PCA 可以找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样品点之间的相互位置关系,只是改变了坐标系统。

在这里插入图片描述在这里插入图片描述

详细关于主成分分析的解释推荐大家看一篇文章,http://blog.csdn.net/aywhehe/article/details/5736659

一起来看看包含PCoA研究的文章

案例解析

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

研究背景:全球塑料产量飞速增长,而且呈持续上升的趋势,因此导致大量塑料废物排放到环境中,从沿海河口到大洋环流,从东大西洋到南太平洋海域。塑料废弃物具有化学稳定性和生物利用率低的特点,可长期存在于海洋中,从而影响海洋环境包括海洋生物的生存。

作为一个独特的底物,塑料碎片可以吸附海洋中的微生物并形成个“塑性球”。以生物膜形式存在于塑料碎片上的微生物群落。许多研究表明,无论是在海洋还是淡水生态系统中,附着在塑料碎片上微生物群落的组成明显不同于周围环境(水和沉积物),而且易受位置、时间和塑料类型的影响。

主要图表

两两群落差异指数的PCoA图

在这里插入图片描述在这里插入图片描述

PCoA 图可以清楚地看到,SW区细菌群落的置信椭圆与pd和sd的置信椭圆有显著的偏差(p0.05),这表明pd和sd上的细菌群落有相似之处。

不同样本和处理下的细菌群落( 前 10 位)丰度分布

在这里插入图片描述在这里插入图片描述

底物(SW、SD和Pd)上的主要属为细菌和假互斥单胞菌,暴露两周后,这些菌可能是分布广泛和适应性强的三种底物(SW、SD和PD)。暴露4周后,弧菌相对丰度增加.此外,暴露6周后,自养细菌(如扁平菌和硝酸菌)的数量增加。这三种底物上个细菌群落的生长模式也与3.2的结果一致。图5还显示,在6个星期内,在429个原位点中,假单胞菌在pd上的相对丰度高于sw和sd(anova,p开头,接序列的标识符,序列标识符以空格结束,后接描述信息。为保证分析软件能区分每条序列,每个序列的标识必须具有唯一性。

第二行:序列信息,使用既定的核苷酸或氨基酸编码符号。

数据提交

原始数据(Raw data),常见的是illumina机器产生的fastq文件,这一类文件需要向NCBI的SRA数据库进行提交,SRA是NCBI为了并行测序的高通量数据(massively parallel sequencing)提供的存储平台。完整提交SRA需要一些独立项目的分步提交,包括BioProject、BioSample、Experiment、Run等,每一部分用以描述数据的不同属性。

Q2

如何判断测序质量是否合格?

原始的Tags数据会经过质控、过滤、去嵌合体,最终得到有效数据(Effective Tags)。所以在判断测序质量是否合格时应该从几个方面去判断。

打开文件01_sequence_statistic/sumOTUPerSample.txt

在这里插入图片描述在这里插入图片描述

报告里所有的txt打开如果格式不对的话,可以用excel表打开。

其中tags为经质量过滤后能正确overlap包含正确barcode和高质量序列的数据。

Singleton为非完全相同的序列,只要有1个碱基的差异即为不同序列,该值的高低与OUT数量并无直接关系,OTU是以97%的相似度聚类,测序质量较低导致的碱基错误、PCR扩增过程中的碱基错误、菌种内部的多样性以及OTU数量均会影响该数量。

Chimeras为通过与RDP等标准数据库比对分析判断可能由于PCR过程错误扩增导致的嵌合体比例,chimeras%为百分比,一般低于1。

首先判断下机数据tags和有效数据 clean tags 的数据量是否满足测序要求,一般下机数据量达到3万条reads以上满足测序需要,谷禾16s样本的测序深度可以达到10万条reads左右。如果数据量不够则需要重新补测样本。通过观察嵌合体数chimras 和嵌合体所占百分比chimeras%,可以反应出有效序列的转化率,嵌合体的比例越小序列的利用转化率就越高。

根据稀释曲线可以判断测序深度是否达到饱和,如图中曲线都逐渐趋于平缓,就证明样本的测序深度较好,测序深度基本覆盖能测到的该样本所有的物种,测序深度比较好。同时曲线趋于水平纵坐标的高低也能够反映各样本的微生物多样性情况,曲线越高,证明测到的物种种类越多,样本的微生物多样性就越高。

在这里插入图片描述在这里插入图片描述

而从该图可以看出,个别样本的曲线未趋于平缓,证明该样本测序深度不够,测序深度未能很好的反映出该样本的完整菌群构成。如果测序数据量更大的的话会检测到更多物种。

Q3

如何了解分组内部的多个样本的重复性以及多样性情况?

观察分组内部多个样本的重复性如何可以从以下几个方面考虑。

首先在各分类水平的柱状图的菌属构成来看

在这里插入图片描述在这里插入图片描述

从构成图来看,Flu组和ZW3.7组,组内样本重复性较好。Ctrl组中Ctrl.2明显区别于组内另外两个样本,可以去掉该样本。而ZW3.8组内样本间差异性较大。

比如人体肠道或小鼠肠道样本本身个体差异性较大,菌群结构组成复杂,即便通过不同疾病的分类的样本,但营养饮食、代谢以及环境的影响都会改变肠道菌群的构成,所以有可能组内样本间差异性会比较大。而经过单因素处理的样本组内差异会比较小。

所以在前期实验设计时,尽量选择同一批次相同处理的小鼠或其他样本,避免组内差异的影响。并且要预留好多余的样本,比如组内只有3个样本,如果去掉一个差异性较大的样本,一个分组内只有2个样本,会影响后续组间差异比较,组间差异性比较分析每组要至少要3个样本。

在这里插入图片描述在这里插入图片描述

通过beta多样性分析PCA,PCoA,MNDS 也可以大致观察组内样本重复性情况,左图组内样本重复性较好,右图组内样本间差异性较大,两组间的区割不是很明显。

在这里插入图片描述在这里插入图片描述

在加圈图的beta多样性分析中,右下角有给出PC1和PC2的P值,小于0.05则差异显著。

Alpha多样性是针对单个样品中物种多样性的分析,包括chao1指数、ace指数,shannon指数以及simpson指数等。前面4个指数越大,最后一个指数越小,说明样品中的物种越丰富。

在这里插入图片描述在这里插入图片描述

其中chao指数和ACE指数反映样品中群落的丰富度(species richness),即简单指群落中物种的数量,而不考虑群落中每个物种的丰度情况。指数对应的稀释曲线还可以反映样品测序量是否足够。如果曲线趋于平缓或者达到平台期时也就可以认为测序深度已经基本覆盖到样品中所有的物种;反之,则表示样品中物种多样性较高,还存在较多未被测序检测到的物种。

而shannon指数以及simpson指数反映群落的多样性(species diversity),受样品群落中物种丰富度(species richness)和物种均匀度(species evenness)的影响。相同物种丰富度的情况下,群落中各物种具有越大的均匀度,则认为群落具有越大的多样性。

稀释曲线是利用已测得序列中已知的各种OTU的相对比例,来计算抽取n个(n小于测得Reads序列总数)Tags时各Alpha指数的期望值,然后根据一组n值(一般为一组小于总序列数的等差数列,本项目公差为500 )与其相对应的Alpha指数的期望值绘制曲线。

Q4

不同的样本之间差异大吗?不同分组之间能否用菌群差异来区分?

观察不同分组间差异的大小可以观察随机森林分类效果图。

路径在07_diff_analysis/RF

图中以该分类水平下选取用于区分不同分组间的差异性起到关键性影响因素的物种作为标志物作图。标志物按重要性从大到小排列,图中随机森林值error rate 表示用随机森林方法预测分组之间的错误率,分值越高代表所选取的标志物准确度不高,并不能很好的用于区分各分组,分组差异不显著。分值越低证明分组效果比较好。

在这里插入图片描述在这里插入图片描述

上图中的随机森林按照门和属以及代谢途径分别进行分析作图,各自都有单独文件,报告中仅给出了一个图,其他文件需要到目录中查看。可能存在门或属区分效果不佳,但是代谢途径区分效果较好。

随机森林筛选出来的物种是用于区分所有分组的重要标志。分值越高代表该物种用于区分所有组之间的重要性越大。

Q5

二代测序16s 能用普通酶扩增吗?

16s测序主要为了鉴定菌种,通常在做鉴定的时候区分标准是97%,区分亚种和菌株的时候相似度更高。

普通TAQ酶的复制错误率较高,可能在扩增过程中引入错误,这些错配可能导致相似度下降从而分类错误。

一般我们不建议使用普通TAQ酶进行扩增,都选择高保真酶。

Q6

利用16s rRNA鉴定细菌能确定到种上吗?

16s rRNA长度为1.5k多,作为菌种鉴定一般选择相似度97%的标准,相似度超过97%一般定义为同一种菌。

如果是sanger测序获得16s全长的都可以鉴定到种,甚至能区分亚种。有些细菌并不只有1个16s序列,会包含有1-15拷贝的16s序列,所以单一的16s序列鉴定可能会出现偏差。

利用高通量如454或miseq测序一般由于读长的缘故,通常只有300-500多个碱基被测序,所以在物种鉴定上一般比较可靠的是能分类到属,部分能分类到种。

根据我们的经验,不同的样品会有大约10-50的菌能分类到种。利用新的分析方法,我们现在也可以利用16s rRNA的群落多样性高通测序数据进行亚种级别的分析。主要是利用16s中共同变化的SNP位点进行分型。这样可以大大提高菌种的分类精度,尤其是在有些菌株之间表型差异巨大的时候。

Q7

听说光测16s就可能预测基因和功能,是真的吗?

16s序列能够区分菌的种属,但是并不包含这些菌的基因和代谢功能的信息。不过由于我们已经对大量的细菌基因组进行了测序,所以可以根据16s的菌种信息,利用这个菌属已经测序的细菌基因组的基因信息和代谢功能信息来估计每类基因的上限和下限。

所以答案是可以利用16s序列测序来预测菌群的功能基因分布和代谢途径分布情况。

目前主要使用的软件是PICRUSt和新发表的Tax4Fun。

从我们实际分析和实验结果来看,预测的准确性还是很高的,不过和样品有很大关系。像肠道菌群和土壤以及一些致病菌的测序较多,所以预测的准确度较高可以到85-90%以上。一些海洋的菌由于测序的菌较少,预测准确性要差一些。目前发表的文献基本都是用PICRUSt,新的软件还有待验证。

Q8

测16s rRNA能分到亚种吗?不同菌株都有致病性差异光到种不解决问题啊!

16s rRNA如果是使用sanger测序可以细分到亚种甚至有些可以精确区分菌株,但是要看菌种。

如果是高通量测序,目前的常见分析一般以97%为标准,大部分情况只能到属,少部分能区分到种。如果要进一步细分到亚种甚至更小的区分目前是有可能的,我们在使用oligotype一类的方法时可以将相同变化模式的SNP归类,并对原来的OTU进行进一步细分,理论上可以区分到菌株。

不过这种区分不同菌属差异很大,有些可以很理想的区分,主要用来了解在更细分化尺度上菌株构成的地理和时间变化。

仅通过16s高通量测序恐怕不能完全解决菌株致病性差异这种问题,但是通过对常见OTU的进一步深入分析可以提供可能的解释或方向。如果明确了某一特定类型菌株的变化有关,可以采用比如毒力基因或菌株特异性标记等方法详细了解不同菌株的比例和差异。

可变区和测序选择

目前针对扩增子测序可选择的测序平台和方案很多,不同平台的读长和适用的测序区段以及优势各有不同。16s测序主要的测序区段包括V4、V3V4,V1V2,V6,此外还有全长等不同的区段选择,不同可变区或全长由于引物的不同以及不同种属相应区段内的变异多样性差异,对菌属的丰度评估会有一定的差异。

从长度来看,全长16S长度为1.5kb左右,单菌落的16S全长sanger一代测序仍然是菌种鉴定的主要手段,纳米孔和Pacbio的三代测序可以高通量的获得全长序列,对于希望更高分辨率的分析菌种的研究有一定优势。三代的测序准确度目前逐渐改进,直接测序准确度可以在90%以上,纠错后可以提高到97~99%以上,已足够提供高精度的分类。三代目前主要问题在于建库成本相对较高,通过使用barcode可以降低部分但仍然偏高,此外普遍测序深度相对于二代测序要低许多。 目前最主要的可变区选择是V4区和V3V4区,V4区长度为256bp左右,加上两侧引物长度为290bp左右,使用双端2x250bp或2x150bp可以测通,此外如454、life、Illumina Hiseq 4000的测序平台读长也可以主要涵盖该区段读长。例如采用Illumina Hiseq测序平台对该项目进行双端测序(Paired-end),测序得到了fastq格式的原始数据(样本对应一对序列S_1.fastq和S_2.fastq)。再配对拼接成单条序列。其引物通用性相对是所有可变区中最高的,大量的大规模菌群调查研究都采用V4区作为检测区域,包括人体菌群研究如:HMP,肠道菌群如美国肠道计划AGP,欧洲的FGFP等,以及全球土壤菌群调查,目前仍然是国际研究中使用最广泛和认可的检测区域。

Illumina的Miseq提供了长达2x300bp以及Hiseq2500和最近的NovoSeq提供有2x250bp的测序方案,为进一步利用读长,目前有相当一部分研究选择V3V4区,该区段长度在460bp左右,相较于V4度多出了V3区段约100bp左右的片段,在少部分菌属中可以增加一定分辨率。经过对比,V3V4区的检测结果和V4区在绝大部分菌属中的丰度一致,但由于引物不同,在少量菌属中丰度会有不同偏向,V3V4从OTU层面上并未发现较V4区有明显增加。引物的选择和提取、储存方法是影响菌群检测丰度构成的主要因素,不同研究之间的比较需要考虑到实验方案的一致,相同的方案可以直接比较。 目前的高通量测序平台可以较低成本的进行大规模的测序,从测序深度角度,土壤菌群的多样性最高,一般需要5万条以上序列可以达到饱和,肠道样本在3万条以上,水体和尿液等1万条以上基本可以到达饱和。

同一批小鼠粪便样本v4(10万 clean reads)和 v3v4(5万clean reads)测序数据比较:

原始序列数据:

V4

V3V4

一文读懂微生物扩增子16s测序[通俗易懂]一文读懂微生物扩增子16s测序[通俗易懂]

以上两表是对原始序列数据进行统计,表中可以看出有效序列tags、高质量序列clean_tags、otus数量 V4区都远高于v3v4区。V4区测序获得下机数据在13万条左右,v4区测序获得的下机数据在5万条左右。

Alpha多样性指数比较:

V4

一文读懂微生物扩增子16s测序[通俗易懂]一文读懂微生物扩增子16s测序[通俗易懂]

V3V4

一文读懂微生物扩增子16s测序[通俗易懂]一文读懂微生物扩增子16s测序[通俗易懂]

以上两个表分别是对Alpha多样性指数计算的结果比较

Chao1 指数和ACE指数是用来评估样本中所含OTU数目的指数,从Chao1 指数和ACE指数可以看出,用 v4测序获得的结果要明显大于v3v4的结果。这是因为v4测序通量更高,测序深度更好,每个样下机的测序数据可以到10万条以上,一般在13万条左右,所以经过序列比对获得的OTU数目更多,相比较用v3v4测序每个样下机的数据大约在4到5万条左右,经过序列比对获得的OTU相对少一点。

Shannon指数和Simpson指数是用来评估菌群的丰富度和均一度 的。从Shannon指数和Simpson指数,用v4和v3v4测序指数相差不大,或v4比v3v4略高一点,证明两种测序之间菌群的丰富度多样性和均一度叫接近。

物种主要构成比较:

V4

一文读懂微生物扩增子16s测序[通俗易懂]一文读懂微生物扩增子16s测序[通俗易懂]

V3V4

一文读懂微生物扩增子16s测序[通俗易懂]一文读懂微生物扩增子16s测序[通俗易懂]

V3v4

属水平前10个物种构成:Lactobacillus、Adlercreutzia、Flexispira、Allobaculum、Desulfovibrio、Prevotella、Odoribater、Oscillospira、[Prevotella]、Bacteroides

V4

属水平前10个物种构成:Lactobacillus、Akkermansia、Helicobacter、Allobaculum、Desulfovibrio、Adlercreutzia、Odoribacter、Bacteroides、Prevotella、[Prevotella]

从前10个物种构成来看,有8个是相同的,物种的主要构成基本一致,测序的稳定性较好。从种类来看,v3v4测到的属水平个数较多。

各分类水平鉴定到的物种种类比较:

V4

一文读懂微生物扩增子16s测序[通俗易懂]一文读懂微生物扩增子16s测序[通俗易懂]

V3v4

一文读懂微生物扩增子16s测序[通俗易懂]一文读懂微生物扩增子16s测序[通俗易懂]

以上两张表代表了每个样本在各分类水平上鉴定到的物种种类数。从整体上来看,分别用v4和v3v4测序得到的数据,在各分类水平上鉴定到的物种个数相对比较稳定和接近,(尤其在目水平和科水平上)用v3v4测序获得的物种数比v4相对较多一点,单相差不大,在属水平和种水平则不一定是这种规律,最终鉴定到的物种个数也跟该样本的测序质量有关。

最后附几篇顶级杂志发表的16s V4区的文章

Poyet, M., et al. “A library of human gut bacterial isolates paired with longitudinal multiomics data enables mechanistic microbiome research.” Nature medicine 25.9 (2019): 1442-1452.

(16S library preparation and sequencing. 16S rRNA gene libraries targeting the V4 region of the 16S rRNA gene were prepared by first normalizing template concentrations and determining optimal cycle number by way of qPCR. Two 25 µL reactions for each sample were amplified with 0.5 units of Phusion with 1X High Fidelity buffer, 200 μM of each dNTP, 0.3 μM of 515 F( 5′- AATGATACGGCGACCACCGAGATCTACACTATGGTAATTGTGTGCCAGCMGCCGCGGTAA-3′) and 806rcbc0 (5′- CAAGCAGAAGACGGCATACGAGATTCCCTTGTCTCCAGTCAGTCAGCCGGACTACHVGGGTWTCTAAT-3′).

Tito, Raul Y., et al. “Population-level analysis of Blastocystis subtype prevalence and variation in the human gut microbiota.” Gut 68.7 (2019): 1180-1189.

(We profiled stool samples from 616 healthy individuals from the FGFP cohort as well as 107 patients with IBD using amplicon sequencing targeting the V4 variable region of the 16S rRNA and 18S rRNA genes).

Call, Lee, et al. “Metabolomic signatures distinguish the impact of formula carbohydrates on disease outcome in a preterm piglet model of NEC.” Microbiome 6.1 (2018): 111.

(Gut contents and mucosal samples were collected and analyzed for microbial profiles by sequencing the V4 region of the 16S rRNA gene. Metabolomic profiles of cecal contents and plasma were analyzed by LC/GC mass spectrometry).

Wang, Chao, et al. “High-salt diet has a certain impact on protein digestion and gut microbiota: a sequencing and proteome combined study.” Frontiers in Microbiology 8 (2017): 1838.

(In this study, C57BL/6J mice were fed low- or high-salt diets (0.25 vs. 3.15% NaCl) for 8 weeks, and then gut contents and feces were collected. Fecal microbiota was identified by sequencing the V4 region of 16S ribosomal RNA gene).

Bai, J., Y. Hu, and D. W. Bruner. “Composition of gut microbiota and its association with body mass index and lifestyle factors in a cohort of 7–18 years old children from the American Gut Project.” Pediatric obesity 14.4 (2019): e12480.

(AGP sequenced the V4 region of 16S rRNA gene).

Luthold, Renata V., et al. “Gut microbiota interactions with the immunomodulatory role of vitamin D in normal individuals.” Metabolism 69 (2017): 76-86.

(The association between 25(OH)D and fecal microbiota (16S rRNA sequencing, V4 region) was tested by multiple linear regression).

Iszatt, Nina, et al. “Environmental toxicants in breast milk of Norwegian mothers and gut bacteria composition and metabolites in their infants at 1 month.” Microbiome 7.1 (2019): 34.

(Child fecal samples were characterized by 16S rRNA gene amplicon sequencing of the V4 region. We used Deblur, a novel sub-operational taxonomic-unit (sub-OTU) approach that provides a higher resolution than OTU-based analyses).

Vangay, Pajau, et al. “US immigration westernizes the human gut microbiome.” Cell 175.4 (2018): 962-972.

(We performed amplicon-based sequencing of the 16S rRNA gene V4 region on 550 stool samples (one sample per participant).

Suez, Jotham, et al. “Post-antibiotic gut mucosal microbiome reconstitution is impaired by probiotics and improved by autologous FMT.” Cell 174.6 (2018): 1406-1423.

(For 16S amplicon pyrosequencing, PCR amplification was performed spanning the V4 region using the primers 515F/806R of the 16S rRNA gene and subsequently sequenced using 2X250 bp paired-end sequencing (Illumina MiSeq).

Zmora, Niv, et al. “Personalized gut mucosal colonization resistance to empiric probiotics is associated with unique host and microbiome features.” Cell 174.6 (2018): 1388-1405.

(For 16S amplicon pyrosequencing, PCR amplification was performed spanning the V4 region using the primers 515F/806R of the 16S rRNA gene and subsequently sequenced using 2 × 250 bp paired-end sequencing (Illumina MiSeq).

Riquelme, Erick, et al. “Tumor microbiome diversity and composition influence pancreatic cancer outcomes.” Cell 178.4 (2019): 795-806.

(The 16S rDNA V4 region was amplified by PCR and sequenced in the MiSeq platform (Illumina) using the 2×250 bp paired-end protocol yielding pair-end reads that overlap almost completely. The primers used for amplification contain adapters for MiSeq sequencing and single-index barcodes so that the PCR products may be pooled and sequenced directly (Caporaso et al., 2012), targeting at least 10,000 reads per sample. 16S (variable region 4 [v4]) rRNA gene pipeline data incorporated phylogenetic and alignment based approaches to maximize data resolution).

Matson, Vyara, et al. “The commensal microbiome is associated with anti–PD-1 efficacy in metastatic melanoma patients.” Science 359.6371 (2018): 104-108.

(Specifically, the V4 region of the 16S rRNA gene (515F-806R) was PCR-amplified with region-specific primers that include sequencer adapter sequences used in the Illumina flowcell).

Raman, Arjun S., et al. “A sparse covarying unit that describes healthy and impaired human gut microbiota development.” Science 365.6449 (2019): eaau4735.

(Amplicons generated from variable region 4 (V4) of bacterial 16S rRNA genes present in these 2455 fecal samples were sequenced, and the resulting reads were assigned to operational taxonomic units with ≥97% nucleotide sequence identity (97%ID OTUs).

Gehrig, Jeanette L., et al. “Effects of microbiota-directed foods in gnotobiotic animals and undernourished children.” Science365.6449 (2019): eaau4732.

(Characterizing human fecal microbial communities Methods for V4-16S rRNA gene sequencing and data analysis, calculation of MAZ scores and functional microbiome maturity, and quantification of enteropathogen burden by means of multiplex quantitative polymerase chain reaction (qPCR) are described in the supplementary materials).

Lloyd-Price, Jason, et al. “Multi-omics of the gut microbial ecosystem in inflammatory bowel diseases.” Nature 569.7758 (2019): 655.

(In brief, bacterial genomic DNA was extracted from the total mass of the biopsied specimens using the MoBIO PowerLyzer Tissue and Cells DNA isolation kit and sterile spatulas for tissue transfer. The 16S rDNA V4 region was amplified from the extracted DNA by PCR and sequenced in the MiSeq platform (Illumina) using the 2 × 250 bp paired-end protocol, yielding pair-end reads that overlapped almost completely).

Multi-omics of the gut microbial ecosystem in inflammatory bowel diseases. Nature. 2019

(In brief, bacterial genomic DNA was extracted from the total mass of the biopsied specimens using the MoBIO PowerLyzer Tissue and Cells DNA isolation kit and sterile spatulas for tissue transfer. The 16S rDNA V4 region was amplified from the extracted DNA by PCR and sequenced in the MiSeq platform (Illumina) using the 2 × 250 bp paired-end protocol, yielding pair-end reads that overlapped almost completely).

emporal development of the gut microbiome in early childhood from the TEDDY study. Nature. 2019

(Bacterial DNA was extracted using the PowerMag Microbiome DNA isolation kit following the manufacturer’s instructions. The V4 region of the 16S rRNA gene was amplified by PCR and sequenced on the MiSeq platform (Illumina) using the 2 × 250 bp paired-end read protocol).

A communal catalogue reveals Earth’s multiscale microbial diversity. Nature. 2018

(We surveyed bacterial and archaeal diversity using amplicon sequencing of the 16S rRNA gene, a common taxonomic marker for bacteria and archaea12 that remains a valuable tool for microbial ecology despite the introduction of whole-genome methods (e.g., metagenomics) that capture gene-level functional diversity13. We amplified the 16S rRNA gene (V4 region) using primers14 shown to recover sequences from most bacterial taxa and many archaea).

Root microbiota drive direct integration of phosphate stress and immunity. Nature. 2017.

(For wild soil experiment 16S sequencing, we processed libraries according to Caporaso, et al.28. Three sets of index primers were used to amplify the V4 (515F-806R) region of the 16S rRNA gene of each sample. In each case, the reverse primer had a unique molecular barcode for each sample).

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/133451.html原文链接:https://javaforall.cn



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3