一文读懂｜精准简化基因组甲基化测序(RRBS+oxRRBS)分析怎么做

您所在的位置：网站首页 › 测序reads数据量 › 一文读懂｜精准简化基因组甲基化测序(RRBS+oxRRBS)分析怎么做

一文读懂｜精准简化基因组甲基化测序(RRBS+oxRRBS)分析怎么做

2023-03-12 08:36| 来源: 网络整理| 查看: 265

易基因采⽤标准提取⽅法从组织或细胞中提取DNA，随后对DNA样品进⾏严格质控，质控标准主要包括以下⼏个⽅⾯：

琼脂糖凝胶电泳：分析样品DNA完整性及是否存在降解； Qubit fluorometer（ Quant-iT dsDNA HS Assay Kit）：检测DNA总量。

（二）⽂库构建与质检

（1）文库构建：

检测合格后，取 1μg 基因组 DNA 加⼊ Msp I 酶在 37℃条件下消化 16h。纯化后的⽚段 DNA ⽤ T4 DNA 聚合酶、Klenow ⽚段酶和 T4 多聚核苷酸激酶混合处理，修复、剪切和磷酸化。DNA ⽚段随后⽤ Klenow ⽚段(3 ' -5 ' exo-)进⾏ 3 '腺苷化，然后⽤ T4 DNA 连接酶将 5 ' -甲基胞嘧啶合成的接头连接起来。纯化后，每个 oxRRBS ⽂库取 1μl 氧化剂，反应体系为 10μl，RRBS ⽂库样品加⼊ 1μl 超纯⽔中代替氧化剂作为对照。两个⽂库在温度为 40℃，热盖温度为 57℃的PCR 仪中反应 10min。将反应混合液 14000 X g 离⼼ 10 min，然后将上清转移到新的 0.2 ml PCR 管中，分别进⾏亚硫酸盐处理。使⽤ TrueMethyl Seq 试剂盒进⾏亚硫酸盐转换处理。最终的 oxRRBS 和 RRBS ⽂库加⼊引物进⾏ PCR 扩增。

（2）文库质检：

⽂库构建完成后，先使⽤Qubit2.0 Fluorometer进⾏初步定量，稀释⽂库⾄1ng/ul，随后对⽂库的insert size进⾏检测，insert size符合预期后，qPCR对⽂库有效浓度进⾏准确定量（⽂库有效浓度⾼于2nM），以保证⽂库质量。

（三）上机测序

库检合格后，把不同⽂库按照有效浓度及⽬标下机数据量的需求pooling后进⾏Illumina测序。测序的基本原理是边合成边测序（Sequencing by Synthesis）。在测序的flow cell中加⼊四种荧光标记的dNTP、DNA聚合酶以及接头引物进⾏扩增，在每⼀个测序簇延伸互补链时，每加⼊⼀个被荧光标记的dNTP就能释放出相对应的荧光，测序仪通过捕获荧光信号，并通过计算机软件将光信号转化为测序峰，从⽽获得待测⽚段的序列信息。测序过程如下图所示。

精准简化基因组甲基化测序(RRBS+oxRRBS)

信息分析流程

将测序结果与参考基因组⽐对，⽐对上唯⼀位置的序列⽤于后续标准信息分析及个性化分析。信息分析流程如下：

精准简化基因组甲基化测序(RRBS+oxRRBS)

质控分析

（一）测序数据说明

图：FASTQ格式示例

上述⽂件中第⼀⾏以“@”开头，随后为Illumina测序标识符(Squence Identifiers)和描述⽂字；第⼆⾏是测序⽚段的碱基序列；第三⾏以“+”开头，随后为Illumina测序标识符(也可为空)；第四⾏是测序⽚段每个碱基相对应的测序质量值，该⾏中每个字符对应的ASCII值减去33，即为该碱基的测序质量值。

（二）测序数据质控

原始下机数据包含建库时引进的接头序列以及质量过低的碱基，这些因素会导致后续⽐对到基因组的reads较少，从⽽导致得到的信息较少，因此需要进⾏过滤。

（三）数据质量评估

经过原始数据过滤、测序错误率检查、GC含量分布检查。

（四）⽐对质量评估

经过质控的reads需要根据与参考基因组的序列相似度⽐对到参考基因组上。

相⽐于常规基因组及转录组测序，RRBS测序⽅法产⽣的数据的特点决定其在⽐对时存在三⼤困难：

经过质控的reads根据与参考基因组的序列相似度⽐对到参考基因组上。⽐对到参考基因组上的reads数量越多，后续分析过程中可利⽤的信息就越多。

（五）氧化转化效率及覆盖率评估

（1）甲基化⽔平计算

甲基化⽔平可根据未转化为 T 的 C 与转化为 T 的 C 的 reads 的⽐例计算得到，即：

Beta-value = C-reads / (C-reads + T-reads) * 100%

其中，Beta-value 即为该胞嘧啶的甲基化⽔平，C-reads 为覆盖该位点的⽀持甲基化的reads 数⽬（测得该位点为 C 的reads），T-reads 为覆盖该位点的不⽀持甲基化的 reads 数⽬（测得该位点为 T 的 reads）。计算原理示意图如下：

（2）氧化转化效率评估

对于oxRRBS⽂库，在氧化完全的情况下，⽂库中hmC可以全部转化为甲酰基修饰(5fC)，再经过重亚硫酸盐转化为T；对于RRBS⽂库，经过重亚硫酸盐的转化，⽂库中⾮甲基化的C可转化为T。

在建库时加⼊lambda序列及oxbs-spike-in序列可以对⽂库的转化效率和氧化效率进⾏评估。lambda序列是是⼀段完全没有甲基化的DNA序列，因此理论上经过重亚硫酸盐转化后，所有C位点都应转化为T，即转化效率应为100%。统计lambda序列的C转变成T的⽐率，即可得到⽂库的实际转化效率。

（3）覆盖率评估

将reads⽐对到基因组后，⽐对到不同位点的reads数（测序深度）不同，测序深度过低会导致计算的甲基化率不可信。因此需要统计所有C位点的测序深度。

RRBS+oxRRBS基因组酶切富集⽚段区域

（羟）甲基化⽔平概览

鉴定每个样本基因组酶切富集⽚段区域（羟）甲基化⽔平，并从不同⽅⾯进⾏统计、展示，以从宏观⽔平了解每个样本的（羟）甲基化⽔平。

（1）样本基因组酶切富集⽚段区域（羟）甲基化图谱

（2）（羟）甲基化平均⽔平统计

分别统计有效测序深度下，三种类型胞嘧啶基因组酶切富集⽚段区域范围内（羟）甲基化的平均⽔平。该统计可以从宏观⽔平反应样本基因组酶切富集⽚段区域（羟）甲基化⽔平的⾼低。

（3）基因组酶切富集⽚段区域（羟）甲基化的分布

不同类型的胞嘧啶的（羟）甲基化⽔平在不同物种间，甚⾄同⼀物种不同细胞类型间都存在差异。因此，统计了每种类型C碱基（羟）甲基化⽔平的分布。

将CG、CHG、CHH类型的胞嘧啶，按照（羟）甲基化⽔平划分为10个档次（0-0.1, 0.1-0.2, 0.2-0.3等），分别统计每个档次包含的胞嘧啶的⽐例。

（4）各样本（羟）甲基化⽔平分布⽐较

展示各样本基因组酶切富集⽚段区域（羟）甲基化⽔平在不同区间的的分布密度，直观地⽐较样本间（羟）甲基化⽔平分布的特征。

（5）各基因元件的（羟）甲基化⽔平特征

不同基因元件的（羟）甲基化⽔平不同。将基因组序列按照不同的基因结构元件划分为启动⼦（promoter），基因本体（genebody），转录终⽌位点下游2000bp（down2k）并统计这些基因结构元件中，MergedCG位点的（羟）甲基化⽔平的分布。

（6）基于基因组酶切富集⽚段区域（羟）甲基化图谱的分层聚类

根据基因组酶切富集⽚段区域（羟）甲基化图谱图谱，对样本进⾏聚类，可从总体⽔平反应样本组内和组间差异。

（7）基于基因组酶切富集⽚段区域（羟）甲基化图谱的PCA分析

主成分分析（PCA）是⼀种常⽤的数据降维⽅法，其⽬标是寻找⼀组新的变量，使它们反映原始数据的主要特征。每个新变量是原有变量的线性组合，称为“主成分”。这组新变量中，只有少数⼏组变量能够反映原有变量的主要特征，通过这种⽅式，可以使原有数据的维度降低，更易于体现各样本的特征。

RRBS+oxRRBS的差异（羟）甲基化位点

(D(h)MC)的鉴定及统计

（1）差异（羟）甲基化位点（D(h)MC）的鉴定

（2）D(h)MC的注释

鉴定出的D(h)MC包含染⾊体、起始位置、终⽌位置等信息。根据D(h)MC的位置信息，结合基因组注释信息中所有基因的位置信息及各个基因元件（up2k,promoter, 5utr, cds, exon, intron, 3utr, genebody, down2k, intergenic, cgi, cgi_up4k, cgi_down4k）等位置信息，鉴定D(h)MC与哪些基因的哪些基因元件有重叠，以此来判断D(h)MC修饰哪些基因的哪些基因元件。

（3）D(h)MC修饰基因的统计

根据D(h)MC的注释⽂件，提取出D(h)MC修饰的基因及其的信息（D(h)MC位于基因的promoter或genebody区时，认为该D(h)MC修饰该基因），以更加⽅便地查看D(h)MC修饰的基因。

（4）D(h)MC在染⾊体上的分布

根据D(h)MC的位置信息，统计D(h)MC落在哪些染⾊体上，并⽤图形展示，以了解D(h)MC在染⾊体上的分布有偏好性。

（5）D(h)MC在基因元件上的分布

根据D(h)MC的位置信息，分别统计Hyper D(h)MC及Hypo D(h)MC 落在哪些基因元件上

（6）D(h)MC修饰基因的功能富集分析

基因本体（ Gene Ontology， GO）是基因功能国际标准分类体系，提供了⼀套动态更新的标准词汇表来描述⽣物体中基因和基因产物的属性，可以挖掘出⼀些⽣物学相关的途径。GO分为三个Ontology，分别是：分⼦功能（Molecular Function， MF）、细胞组分（ Cellular Component， CC）和⽣物过程（Biological Process， BP）。

KEGG（ Kyoto Encyclopedia of Genes and Genomes，京都基因与基因组百科全书）是基因组破译⽅⾯的数据库。在给出染⾊体中⼀套完整基因的情况下，它可以对蛋⽩质交互⽹络在各种细胞活动起的作⽤做出预测。KEGG Pathway显著性富集分析应⽤超⼏何检验，找出与整个基因组背景相⽐，在差异甲基化修饰的基因中显著富集的Pathway。

将鉴定出的D(h)MC所修饰的基因，利⽤GO和KEGG数据库进⾏功能富集分析。将D(h)MC修饰基因进⾏三种分类，并对每个分类做富集分析：

⾸先，对Hyper-D(h)MC、Hypo-D(h)MC修饰的基因（⽆论修饰位于genebody还是promoter）分别做功能富集分析。

⽬前⼤部分报道公认若（羟）甲基化修饰位于基因的promoter区，会抑制基因的表达；⽽（羟）甲基化修饰位于genebody区时，其对基因表达的影响则更加复杂，有报道称genebody区甲基化⽔平与表达呈正相关，但两者之间的关系实际上根据细胞的不同⽽不同；羟甲基化与基因表达之间的关系研究的更少。有报道认为，TSS附近的区域（TSS上游临近区域及第⼀个启动⼦）羟甲基化⽔平与表达呈负相关，genebody区羟甲基化⽔平则与表达呈正相关。因此，对位于promoter区及genebody区的Hyper-D(h)MC和Hypo-D(h)MC修饰的基因也分别进⾏富集分析。

综上所述，对D(h)MC来说，都对以下四类基因进⾏功能富集分析：

对实验组相对于对照组甲基化⽔平升⾼的D(h)MC（All-Hyper D(h)MC）修饰的基因做功能富集分析；对实验组相对于对照组甲基化⽔平降低的D(h)MC（All-Hypo D(h)MC）修饰的基因做功能富集分析；对实验组相对于对照组甲基化⽔平升⾼的启动⼦区的D(h)MC（Promoter-Hyper D(h)MC）修饰的基因做功能富集分析；对实验组相对于对照组甲基化⽔平降低的启动⼦区的D(h)MC（Promoter-Hypo D(h)MC）修饰的基因做功能富集分析。

富集分析采⽤Fisher检验，结合BH矫正。富集分析结果包括表格和图⽚两部分，其中，表格为所有富集到的GO/KEGG条⽬，包括显著和不显著的。

RRBS+oxRRBS差异（羟）甲基化区域

(D(h)MR)的鉴定及统计

（1）差异（羟）甲基化区域（D(h)MR）的鉴定

（2）D(h)MR的注释

鉴定出的D(h)MR包含染⾊体、起始位置、终⽌位置等信息。根据D(h)MR的位置信息，结合基因组注释信息中所有基因的位置信息及各个基因元件（up2k,promoter, 5utr, cds, exon, intron, 3utr, genebody, down2k, intergenic, cgi, cgi_up4k, cgi_down4k）等位置信息，鉴定D(h)MR与哪些基因的哪些基因元件有重叠，以此来判断D(h)MR修饰哪些基因的哪些基因元件。

（3）D(h)MR修饰基因的统计

根据D(h)MR的注释⽂件，提取出D(h)MR修饰的基因及其的信息（D(h)MR位于基因的promoter或genebody区时，认为该D(h)MR修饰该基因），以更加⽅便地查看D(h)MR修饰的基因。

（4）D(h)MR在染⾊体上的分布

根据D(h)MR的位置信息，统计D(h)MR落在哪些染⾊体上，并⽤图形展示，以了解D(h)MR在染⾊体上的分布有偏好性。

（5）D(h)MR在基因元件上的分布

根据D(h)MR的位置信息，分别统计Hyper D(h)MR及Hypo D(h)MR 落在哪些基因元件上。

（6）D(h)MR修饰基因的功能富集分析

同样地，对D(h)MR修饰的基因也分成四类做功能富集分析。

对实验组相对于对照组（羟）甲基化⽔平升⾼的D(h)MR（All-Hyper D(h)MR）修饰的基因做功能富集分析；对实验组相对于对照组（羟）甲基化⽔平降低的D(h)MR（All-Hypo D(h)MR）修饰的基因做功能富集分析；对实验组相对于对照组（羟）甲基化⽔平升⾼的启动⼦区的D(h)MR（Promoter-Hyper D(h)MR）修饰的基因做功能富集分析；对实验组相对于对照组（羟）甲基化⽔平降低的启动⼦区的D(h)MR（Promoter-Hypo D(h)MR）修饰的基因做功能富集分析。

富集分析采⽤Fisher检验，结合BH矫正。富集分析结果包括表格和图⽚两部分，其中，表格为所有富集到的GO/KEGG条⽬，包括显著和不显著的。

易基因精准DNA甲基化和羟甲基化测序

(oxBS-seq)

DNA羟甲基化是近年发现的一种新的DNA修饰并迅速成为研究热点。随着研究的深入，发现之前被认为是检测DNA甲基化“金标准”的重亚硫酸盐测序并不能区分DNA甲基化（5mC）和DNA羟甲基化（5hmC）。易基因联合剑桥大学建立了化学氧化法结合重亚硫酸盐转化的测序技术（oxidative bisulfite sequencing, oxBS-seq），该技术不仅可以精确检测DNA甲基化，排除DNA羟甲基化的影响，还可以双文库结合同时单碱基分辨率精确检测DNA羟甲基化。

传统BS转化无法区分5mC和5hmC

传统的Bisulfite测序中，5hmC经过Bisulfite处理后变为CMS，CMS在测序中仍然被读作C碱基，因此不能区分5mC和5hmC。

oxBS-Seq技术原理：

oxBS-Seq将5hmC氧化5fC，后者可以被Bisulfite转为U，从而实现5mC的精准检测；同时，经过与常规Bisulfite结果比较可以实现对5hmC的准确检测。

技术优势：

1、DNA甲基化检测全新的“标准”；

2、单碱基检测DNA羟甲基化修饰；

3、多重质控标准检测氧化效率和Bisulfite转换率；

4、实验偏好性低，重复性高（R2＞0.98）；

5、易基因自主研发的甲基化特异性多重PCR引物设计软件；

6、可满足多种测序应用需求：

全基因组氧化甲基化测序（oxWGBS）简化基因组氧化甲基化测序（oxRRBS）目标区域靶基因氧化甲基化测序（Target-oxBS）。

技术路线

技术指标

RRBS+oxRRBS项目文章

oxRRBS+RRBS揭示了牦牛下丘脑在神经调节和髓鞘形成中的表观调控作用

Genome-Wide DNA Methylation and Hydroxymethylation Changes Revealed Epigenetic Regulation of Neuromodulation and Myelination in Yak Hypothalamus.

背景：

5-甲基胞嘧啶 (5mC) 和 5-羟甲基胞嘧啶 (5hmC) 都是神经发育中重要的表观遗传修饰。然而很少有研究在自然高海拔条件下鉴定动物大脑区域的全基因组5mC和5hmC模式。

方法：

利用RRBS+oxRRBS鉴定牦牛和牛的大脑、脑干、小脑、下丘脑的基因组5mC和5hmC位点，绘制基因组DNA甲基化和羟甲基化图谱，并进行DNA甲基化/羟甲基化差异化分析和对应转录组的关联分析。

结论：

本研究利用RRBS+oxRRBS技术发现牦牛和牛的下丘脑和其他大脑区域的5mC和5hmC存在显著差异，鉴定出差异甲基化区域（DMR）和差异羟甲基化区域（DhMR），其中大多数彼此重叠。最后，验证了DMRs和DhMRs调控的差异表达基因（DEG）可能在神经调节和髓鞘形成中发挥重要作用。总之结果表明， 5mC和5hmC介导的表观遗传调控可能广泛影响下丘脑的发育及其生物学功能，可能有助于提高高海拔条件的生理适应性。

图：利用RRBS+oxRRBS鉴定牦牛和牛下丘脑和其他大脑区域的DMR和DhMR

参考文献：

[1] Ashburner, M. and C. A. Ball, et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet, 2000, 25 (1): 25-9.

[2] Dirk Schübeler. Function and information content of DNA methylation. Nature, 2015, 517: 321–326.

[3] Frank Jühling et al. metilene: Fast and sensitive calling of differentially methylated regions from bisulfite sequencing data. Genome Research, 2016, 26: 256-262.

[4] Kanehisa M, Goto S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic acids research, 2000,28(1): 27-30.

[5] Tadafumi Kato Kazuya Iwamoto. Comprehensive DNA methylation and hydroxymethylation analysis in the human brain and its implication in mental disorders.

Neuropharmacology, 2014, 80: 133-139.

[6] Xiaojing Yang et al. Gene Body Methylation Can Alter Gene Expression and Is a Therapeutic Target in Cancer. Cancer Cell 26, 577–590.

[7] Yuanxin Xi et al. BSMAP: whole genome bisulfite sequence MAPping program. BMC Bioinformatics, 2009, 10:232.

点击加入基因俱乐部成就行业精英

目前已有500+行业精英加入基因俱乐部返回搜狐，查看更多

【本文地址】

一文读懂｜精准简化基因组甲基化测序(RRBS+oxRRBS)分析怎么做

一文读懂｜精准简化基因组甲基化测序(RRBS+oxRRBS)分析怎么做

今日新闻

推荐新闻