ATAC

您所在的位置:网站首页 tf的英文怎么写 ATAC

ATAC

2024-01-17 10:34| 来源: 网络整理| 查看: 265

这是目前为止我看到过的关于ATAC-seq的最新综述,感兴趣的话值得一读。 2020.4.22更新:我看到一个公众号也翻译了这篇文章,而且正好跟我这篇翻译是在同一天发表https://mp.weixin.qq.com/s/7JAEPDuEEsmRxXI3UZDZHQ。他的文字比我流畅很多,排版也比较舒服,推荐给大家~

基本信息

From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis

2020年2月3日发表在Genome Biology,一作为Feng Yan,通讯作者是Nicholas C. Wong。

原文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-1929-3#Abs1

image 摘要

转座酶可及染色质测序法(ATAC-seq)已广泛用于研究染色质生物学,但分析工具的全面性综述尚未完成。在这里,我们讨论ATAC-seq数据分析的主要步骤,包括预分析(质量检查和比对),核心分析(peak calling)和高级分析(peak差异分析和注释,motif富集,footprint分析,以及核小体定位分析)。我们还回顾了利用多组学数据重建转录调控网络的过程,并重点指出了每个步骤当前面临的挑战。最后,我们描述了单细胞ATAC-seq的潜力,并强调了开发ATAC-seq特定分析工具以获得有生物学意义的深入理解的必要性。

介绍

哺乳动物的DNA通过三个主要的层次尺度进行高度浓缩:第一层次是核小体,然后包装到染色质,再通向第三层次——染色体[ 1,2,3,4,5,6 ]。染色质可以在转录活跃的常染色质和不活跃的异染色质之间进行动态切换[7,8 ]。DNA压缩的三个尺度及其相互作用共同造就了基因的表达调控。

最近的基因调控研究集中在表观遗传学上。高通量测序技术的进步给我们提供了各种破译表观遗传学图谱的方法。其中包括测定染色质可及性的转座可接近的染色质测序(ATAC-seq)[9,10 ],DNA酶I高敏位点测序(DNase-seq)[ 11,12,13 ]和甲醛辅助隔离调控元件测序(FAIRE-seq) [ 14 ];其测量转录因子(TF)结合[ 15,16,17]和组蛋白修饰[ 18,19 ]的染色质免疫沉淀测序(ChIP-seq); 检测核小体定位和占位[ 20,21 ]的微球菌核酸酶测序(MNase-seq)。这些测定的详细步骤不在本综述的范围之内,在其他文章中[ 22 ]进行了详细讨论。

自2013年发明以来,ATAC-seq在各种染色质可及性的检测方法中特别受欢迎。经过整理的ATAC-seq数据集和出版物呈指数增长,表明其在广泛的生物学问题中的价值(图1a),例如如描绘哺乳动物健康组织和细胞类型中的增强子图谱[ 23,24,25 ],研究正常造血和白血病之间的可及性变化[26,27],以及精神分裂症患者和癌症基因组图谱(TCGA)泛癌队列中的染色质状态[ 28,29]。图3a展示了这项尖端技术在基础和转化研究中的示意图 。简而言之,ATAC-seq整合了基因工程修饰的高活性Tn5转座酶,可以同时切割开放的染色质、留下9 bp的交错缺口,并将高通量测序接头连接到这些区域。在此过程中,切口被修复,留下了9-bp的重复序列[ 30,31 ]。然后进行双端测序以使这些开放区域有更高的非重复比对率[ 32 ]。

图1 ATAC-seq数据集增长,以及预分析和高级分析的样本数总览。a* 从2013年1月1日至2019年10月1日,PubMed中ATAC-seq数据集、ATAC-seq出版物、DNase-seq数据集、FAIRE-seq的数据集、MNase-seq的数据集在的数量 b典型片段大小分布曲线显示100bp和200 bp附近的富集,表明无核小体结合和单核小体结合的片段。c典型的TSS富集图显示,不含核小体的片段在TSS富集,而单核小体的片段在TSS处耗尽,但在侧翼区域富集。d典型的峰注释饼图显示,超过一半的峰落入增强子区域(远端基因间区和内含子区域),只有约25%的峰在启动子区域。TSS:转录起始位点*

Tn5转座酶的高活性使ATAC-seq protocol成为一种简单、省时的方法,需要500-50,000个细胞[ 9 ]。灵敏度和特异性与DNase-seq相当,但优于FAIRE-seq,这两种方法都需要数百万个细胞作为输入材料[ 9 ]。由于ATAC-seq在文库制备过程中不涉及严格的大小选择,因此它也可以使用代表核小体单体和多聚体的片段来鉴定核小体位置[ 9 ]。最近,单细胞ATAC-seq(scATAC-seq)已被报道,依赖的方法有流式细胞分选(FACS)、微流体、基于纳米孔等不同类型[ 33,34,35]。scATAC-seq可以在多种情况下(包括临床标本和发育生物学等)被应用于单细胞分辨率水平研究异质性的细胞群[23,29 ]。

尽管ATAC-seq简单且鲁棒,但它存在一个主要的障碍——专门为ATAC-seq数据开发的生物信息学分析工具很少[32,36 ]。ChIP-seq和DNase-seq中使用的分析工具已应用于ATAC-seq [ 37 ],基于它们数据特征相似的假设。但是,此假设尚未得到系统地评估。

这篇综述的主要重点是讨论ATAC-seq分析的现有资源。我们旨在为ATAC-seq数据分析提供带注释的指南,而不是详尽的工具集。此前关于ATAC-seq数据分析的综述都集中在peak calling和调控网络建模[ 37,38 ],但现在我们迫切需要一篇涵盖ATAC-seq数据分析各个主要部分的系统性综述。这篇综述将涵盖流程图(图 2)中列出的四个最重要的步骤。其中包括(1)预分析(质量控制(QC)和比对),(2)核心分析(peak calling),(3)peak,motif,核小体和TF footprint水平的高级分析,以及(4) 与多组学数据整合以重建调控网络。这些步骤将使研究人员能够对ATAC-seq数据进行鲁棒的分析,并产生更具生物学意义的结果。最后,我们将介绍ATAC-seq分析和scATAC-seq的挑战和机遇。

图2 经典ATAC-seq分析的路线图。列出了四个主要步骤,包括预分析、核心分析、高级分析以及与多组学数据的集成。预分析包括比对前质量控制、比对和比对后处理以及质量控制。核心分析包括peak calling。高级分析包括peak,motif,footprint和核小体分析。多组学数据集成包括与ChIP-seq和RNA-seq数据整合以及调控网络重建。每个框中的文本强调每个分析步骤中的重要注意事项。我们建议研究人员用FastQC,trimmomatic和BWA-MEM进行预分析,用MACS2进行peak calling,用csaw进行peak差异分析,用ChIPseeker进行注释和可视化,用MEME系列进行motif检测和富集,以HMMRATAC进行核小体检测,HINT-ATAC用于footprint分析,用PCEA整合RNA-seq进行调控网络重建。QC:质量检查;TSS:转录起始位点;TF:转录因子;DEG:差异表达基因

预分析:质量控制和比对

ATAC-seq分析的第一步包括比对前QC,read比对到参考基因组,和比对后QC和处理(图 2 A)[ 32 ]。

比对前质量控制

比对前质量控制和read比对步骤是大多数高通量测序技术的标准配置。例如,FastQC [ 39 ]可用于在测序数据中可视化碱基质量得分、GC含量、序列长度分布、序列重复水平、k-mer过高以及引物和衔接子的污染。总体高的碱基质量评分下,read 3'端评分略有下降是可以接受的。与预期的GC含量和read序列长度之间不应该有明显的偏差。此外,在同一实验批次和测序操作的所有样品中,指标应均一。

当前,由于ATAC-seq普遍使用Illumina的Nextera文库,经常会观察到Nextera测序接头比例过高,应将其删除以进行准确的read比对。大多数去除接头的工具采用不同的动态编程,例如 cutadapt [ 40 ],AdapterRemoval v2 [ 41 ],Skewer [ 42 ]和trimmomatic [ 43 ] 都需要输入已知的接头序列。例如,对Nextera和Truseq文库使用trimmomatic和内置接头序列是一种直接简单的办法。使用这些工具也可以去除低质量的碱基。根据我们的经验,各种read过滤工具在有效去除低质量和污染接头序列的性能方面通常表现差不多。

比对

过滤后,可以再次执行FastQC,以检查接头和低质量碱基是否已成功移除。然后将过滤的read比对到参考基因组。BWA-MEM [ 44 ]和Bowtie2 [ 45 ] 对于短的双端read存储效率高且快速。两个比对工具的软限位策略允许在read的两端有突出碱基,这可以进一步提高unique mapping rate[ 46 ]。我们建议,unique mapping rate达到80%以上时认为ATAC-seq实验成功。对于哺乳动物物种,基于经验和计算估计,建议染色质开放区域检测和差异分析至少需要5000万mapped read,TF footprinting至少需要2亿[ 10,12,47,48,49 ]。

比对后处理和质量控制

序列比对后,就像大多数DNA测序数据一样,可以使用Picard [ 50 ]和SAMtools [ 51 ] 收集比对BAM文件的基本指标,例如unique mapping reads/rate,duplicated read的百分比以及片段大小分布。此外,如果read比对不正确或mapping质量不佳,则应将其删除。线粒体基因组(由于缺乏染色质包装而更可及 [ 52 ] )和ENCODE列入黑名单的区域[ 53,54 ]通常具有非常高的read覆盖度,应该去除 [33]。重复的read(很可能已作为PCR产物出现)也应去除,以显着提高生物学的可重复性[ 48 ]。这些步骤将共同提高开放染色质检测的能力,并减少假阳性。

还有其他需要评估的ATAC-seq特定质量指标。通常,成功的ATAC-seq实验应生成片段大小分布图,其具有递减的和周期性的峰,对应于无核小体区域(NFR)(



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3