Nature重磅综述

您所在的位置:网站首页 基因表达应用 Nature重磅综述

Nature重磅综述

2024-06-04 07:08| 来源: 网络整理| 查看: 265

Nature重磅综述 |关于RNA-seq,你想知道的都在这

原创 生信宝典 生信宝典 昨天

摘要

RNA测序(RNA-seq)在过往十年里逐渐成为全转录组水平分析差异基因表达和研究mRNA差异剪接必不可少的工具。随着二代测序技术 (NGS)的发展,RNA-seq的应用也越来越广。现已经可以应用于很多RNA层面的研究,比如单细胞基因表达、RNA翻译(translatome)和RNA结构组(structurome结构组学)。新的有意思的应用,如空间转录组学(spatialomics)也在积极研究中。通过结合新兴的三代长读长long-read和direct RNA-seq技术,以及更好的计算分析工具,RNA-seq帮助大家对RNA生物学的理解会越来越全面:从转录本在何时何地转录到RNA折叠以及分子互作发挥功能等。

前言

RNA测序(RNA-seq)自诞生起就应用于分子生物学,帮助理解各个层面的基因功能。现在的RNA-seq更常用于分析差异基因(DGE, differential gene expression),而从得到差异基因表达矩阵,该标准工作流程的基本分析步骤一直是没有太大变化:

始于湿实验,提取RNA,富集mRNA或消除rRNA,合成cDNA和构建测序文库。

然后在高通量平台(通常是Illumina)上进行测序,每个样本测序reads深度为10-30 Million reads。

最后一步是计算:比对/拼装测序reads到转录本,计数与转录本比对上的reads数定量,样本间过滤和标准化,样本组间基因/转录本统计差异分析。

早期的RNA-seq实验从细胞群(如来源于某个组织或器官的细胞)中得到DGE数据,并可以应用于很多物种,如玉米(Zea mays),拟南芥(Arabiodopsis thaliana),酿酒酵母(Saccharomyces cerevisae),鼠(Mus musculus)和人(Homo sapiens)。虽然RNA-seq这个词通常包含很多不同的RNA相关的方法或生物应用,但DGE分析始终是它的主要应用(表1),并且是DGE研究的常规工具。

RNA-seq的广泛应用促进了对许多生物层面的理解,如揭示了mRNA剪接的复杂性、非编码RNA和增强子RNA调控基因表达的机制。RNA-seq的发展和进步一直离不开技术发展的支持(湿实验方面和计算分析方面),且与先前的基于基因芯片的技术比起来,获得的信息更多、偏好性更小。到目前为止,已从标准的RNA-seq流程中衍生出多达100种不同的应用。大部分应用都是基于Illumina short-read测序,但最近基于long-read RNA-seq和direct RNA sequencing (dRNA-seq)的方法可以帮助解决Illumina short-read技术处理不了的问题。

本文中,我们先熟悉'baseline'流程,用short-read RNA-seq技术分析DGE。先描述短读长测序的文库构建过程、实验设计注意事项和计算分析流程,探究其应用如此广泛的原因。然后描述单细胞转录组和空间转录组的发展和应用。我们会举例说明RNA-seq在RNA生物学关键研究中的应用,包括转录和翻译的动力学分析,RNA结构,RNA-RNA和RNA-蛋白质间相互作用等。最后我们小小地展望一下RNA-seq的未来,如单细胞和空间转录组是否也会是以后的常规分析,在什么情况下long reads会替代short reads RNA-seq。不过篇幅有限,本文对RNA-seq分析还是有照顾不到的地方,比如典型的有非编码转录组,原核转录组和表观转录组。

图一:short-read,long-read和direct RNA-seq技术和工作流程

图一:A

3种RNA测序方式的建库方法概览:short-read测序(黑色),long-read cDNA测序(绿色)和long-read direct RNA-seq(蓝色)。根据不同的应用目的,文库构建的复杂性和偏好性不同。short-read和long-read cDNA的建库方案在很多步骤是一样的,比如在所有建库方案中接头连接是共有的。三种方法都会受到样本质量和文库构建上下游的计算问题影响。

图一:B

三种主要测序技术的比较。

Illumina workflow(左):

建库之后,单独的cDNA分子在流动槽中构建测序簇,使用3’阻断的荧光标记的核苷酸进行边合成边测序。在每一轮测序中,高速摄像机拍照捕获当前激发的荧光,来判断当前是哪个核苷酸合成进来,测序长度在50-500 bp。

The Pacific Biosciences workflow(中):

建库之后,每个分子与固定在纳米孔底部的聚合酶结合。然后是边合成边测序,测序长度可以高达50 kb。

The Oxford Nanopore workflow(右):

建库后,将单个分子加载到流动槽中,在接头连接过程中加上的分子马达会与生物纳米孔结合。马达蛋白控制RNA链穿过生物纳米孔,引起电流变化,从而推测出经过的碱基序列,生成的测序reads大小为1-10 kb。

图一:C

short-read,long-read和direct RNA-seq分析:

人体中,超过90%的基因(gene n)会发生可变剪接,并生成至少两种不同的表达形式(转录本x,y)。相比于long-read测序可以直接测到每一种不同的转录本,从而获得更全面的信息,short-read的测序在检测转录本上受限于短reads比对的模糊性。在short-read cDNA测序中,有很多reads比对回两个不同转录本共享的外显子上导致无法确定其真实来源。跨越2个或多个外显子的Junction reads可以改善转录异构体的分析,但当两种转录异构体共享剪接断点时就无能为力了。这些问题都增加了分析和解读结果的复杂度。long-read cDNA方法能直接检测全长转录异构体,从而移除或大幅减少检测偏好,提高差异表达转录本分析的准确率。

而以上这些方法都依赖于cDNA转换,这一过程抹去了有关RNA碱基修饰的信息,而且也只能粗略估计多聚腺苷酸(poly(A))尾巴的长度,而direct RNA-seq可以直接分析全长转录本异构体、度量碱基修饰(比如N6-甲基腺苷(M6A))和检测poly(A)尾巴长度。

RNA-seq技术的进步

在NCBI Short Read Archive (SRA)数据共享平台中多于95%的数据来自于Illumina short-read测序技术(表2)。目前几乎所有已发布的mRNA-seq数据都是short-read测序所得,所以我们认为这是RNA-seq技术的常规操作,接下来讨论它的主要流程和限制。不过在转录异构体检测的研究(图一;表1)方面,不断进步的long-read cDNA测序和dRNA-seq技术将向short-read测序技术的主导地位发起挑战。

测序技术平台优势劣势重要应用short-read cDNAllumina, Ion Torrent①高通量,每次运行产生的reads数是long-read平台的100-1000倍之多;②测序偏好和错误模式研究透彻(同聚物homopolymers对于Ion Torrent来说仍然是个问题);③可使用的方法和计算流程很多;④可用于降解了的RNA的分析样品制备过程如反转录,PCR和片段选择都会引入偏好性;转录异构体的检测和定量受限;新转录本的鉴定基于转录本拼装步骤几乎所有的RNA-seq应用都是基于short-read cDNA测序:DGE (differential gene expression), WTA (whole- transcriptome analysis),小RNA,单细胞,空间转录组,新生转录本,翻译组,RNA结构组和RNA-蛋白质相互作用分析等等。long-read cDNAPacBio, ONT①1–50kb的长reads可以检测很多全长转录本 ②用于de novo转录组分析的计算方法简化很多①低-中通量,每个run获得0.5 M-10 Million reads②样品制备过程如反转录,PCR和片段选择(部分方法需要)都会引入偏好性③不太适合降解了的RNA尤其适用于转录异构体的发现,无参转录组的de novo分析,融合转录本的发现,HL A (human leukocyte antigen)和MHC (major histocompatibility complex)等复杂转录本分析Long-read RNAONT①1–50kb的长reads可以检测很多全长转录本②用于de novo转录组分析的计算方法简化很多 ③样品制备不需要反转录或PCR,降低了偏好性 ④可以检测RNA碱基修饰 ⑤单分子测序直接估计poly(A)全长①通量低,每个run仅生产0.5 M-1 Million reads②样品准备和测序过程偏好性不明确③不太适合降解了的RNA①尤其适用于转录异构体的发现,无参转录组的de novo分析,融合转录本的发现,MHC和HLA等复杂转录本分析 ②适用于检测核糖核酸修饰

表1short-read cDNA测序用于差异基因分析

short-read测序是检测和定量转录组范围基因表达的最常见方式,部分原因是因为它比表达芯片更便宜、更易于应用,但更主要的是它可以获得全转录组水平高质量的表达数据。采用Illumina的short-read测序做DGE分析的核心步骤包括RNA提取,cDNA合成,接头连接,PCR扩增,测序和数据分析(图一)。由于mRNA片段化和基于beads的文库纯化过程中偏好150-200 bp的片段,导致这个方案最后获得的cDNA片段都在200 bp以下。每个样本平均测20-30 million reads,对每个基因或转录本进行定量,再统计分析差异基因(参考RNA-seq数据分析部分)。short-read RNA-seq结果很稳定,对RNA-seq的short-read测序技术多次测试比较发现,其平台内和平台间的相关性都很好。然而在样本准备和计算分析阶段有一些步骤也会引入偏好性。这些限制会影响特定生物问题的解释,比如正确地识别和定量一个基因的多个转录异构体。这一局限与研究特别长或特别多变的转录异构体尤其相关。如人的转录组中,50%的转录本长度大于2500 bp,转录本长度范围在186 bp到109 kb。尽管short-read  RNA-seq 可以对更长的转录本进行细致的分析,但相应的方法很难高通量化用于全转录组范围的分析。其它的偏好性和限制可能来自于RNA-seq数据分析的计算方法,比如怎么处理在基因组上有多个匹配位置的序列。一个新的称为合成长读长测序 (synthetic long reads)可以进行全长mRNA测序和解决一部分存在的问题。在short-read RNA-seq建库前利用唯一分子标识符(UMI)标记cDNA分子,从而解决短读长问题做到测序全长mRNA。基于这个技术可以对长达4 kb的转录本异构体进行鉴定和定量。从根本上解决short-cDNA测序固有限制的最有效的方法还是long-read cDNA测序和dRNA-seq方法。

long-read cDNA 测序

尽管Illumina是目前主流的RNA-seq平台,但Pacific Biosciences(PacBio)和Oxford Nanopore(ONT)能在完整的RNA分子反转录为cDNA后进行单分子长读长测序。因为消除了short RNA-seq reads需要的组装步骤,可以解决short reads测序相关的一些问题。例如:序列比对的模糊性降低,可以鉴定更长的转录本,这些有助于更好地检测转录异构体的多样性。同时还可以降低许多short-read RNA-seq计算工具引入的剪接位点检测的高假阳性率。

基于PacBio技术的Iso-Seq能够检测长达15 kb的全长转录本cDNA reads,这有助于发现大量先前未注释的转录本,并通过全长测序确认了早期基于跨物种同源序列的基因预测结果。在标准的Iso-Seq实验流程中,模板置换逆转录酶可以将高质量RNA转化为用来测序的全长cDNA。然后将得到的cDNA进行PCR扩增,并构建PacBio单分子实时(single-molecule, real-time,SMRT)文库。因为短转录本可以很快地扩散到测序芯片的活性表面造成一定的测序偏好,建议选择1至4 kb长度的转录本一起测序,以保证这一长度范围的长短转录本有同等几率进行测序。同时PacBio测序对模板量需求很大,要求进行大体积PCR,需要优化反应体系降低过扩增的影响。PCR末端修复和PacBio SMRT 接头连接后,就可以进行long-read测序了;通过调整测序芯片的上样条件可以进一步控制测序片段的大小选择偏好。

ONT cDNA测序也可以测序全长转录本,而且适用于单细胞测序。同样使用模板置换逆转录来制备全长cDNA,在加接头制备测序文库之前,可以自己决定是否进行PCR扩增。Direct cDNA测序可消除PCR偏差,获得的测序结果质量更高 ;PCR扩增的cDNA文库的测序产出(测序获得的reads数)更高,适用于样本中RNA含量较少的情况。而目前还未在ONT cDNA测序中发现PacBio测序存在的转录本长短选择偏好。

这些long-read cDNA方法都受模板置换逆转录酶限制。这个酶可以把全长和截断的RNA都转换成cDNA。反转录酶只将5’-capped mRNA转换成cDNA,这样就降低了由于RNA降解、RNA断裂导致的转录本截断生成的cDNA和不完整的cDNA合成,从而提高数据质量。但是这些逆转录酶对ONT平台的测序reads读长有反作用。

Long-read direct RNA 测序

正如上面所讨论的,long-read和baseline short-read 平台一样,都需要在测序之前将mRNA转化成cDNA。近期Oxford Nanopore展示他们的纳米孔测序技术能直接测序RNA,也就是说,建库过程中没有修复、cDNA合成、PCR扩增这些过程,移除了这些操作过程的偏好并且保留了RNA上的表观修饰信息,这一技术也称为dRNA-seq。直接从RNA建库需要两步接头连接。首先,带有oligo(dT)悬臂的duplex adaptor与mRNA的PolyA尾巴退火连接。后续是一个可选的逆转录操作,用于提高测序通量(一般推荐做)。第二个连接操作就是添加连有分子马达的测序接头用于后续测序。随后文库加载入MinION,启动3ʹpoly(A)尾巴向5ʹcap端的RNA测序。早期研究表明,dRNA-seq的测序长度在1000 bp左右,最大测序长度超过10 kb。与短读长测序相比,长读长测序可以改善转录异构体的检测,估计PolyA尾巴的长度进行选择性多腺苷酸化分析。Nanopolish-polya工具可以分析纳米孔测序得到的数据,计算基因间或转录本间的poly(A)尾的长度。结果表明内含子保留的转录本相比于完全剪切的转录本具有稍长的PolyA尾巴。虽然dRNA-seq还处于起步阶段,但是其能直接检测RNA碱基修饰的潜力有望在表观转录组领域促进更新的发现。

长读长测序与短读长测序技术的比较

虽然长读长测序技术在转录本分析方面比短读长测序技术有一些明显的优势,但是也存在一些局限。跟成熟的短读长技术平台相比,长读长测序技术的测序通量低很多,错误率更高。而长读长测序技术的主要优势即能测序更多的独立转录本全长,依赖于高质量的RNA文库。这些局限会影响那些特别依赖长读长测序实验的灵敏性和特异性。

当前长读长测序方法的主要局限就是其通量低。在Illumina平台上,一个RUN可以生成10^9-10^10条reads,而PacBio和ONT平台上,一个RNA-seq RUN只能产生10^6-10^7 reads。这种低通量限制了应用长读长测序的项目的大小(实验样本的数目),并降低了差异基因表达检测的灵敏性。当然也不是所有的应用都需要很高的测序深度。比如如果研究者关注的是转录异构体的发现和鉴定,测序长度比测序深度更重要。测序1百万个PacBio环形一致性序列 (circular consensus-sequencing, CCS) 可以保证长度大于1 kb的高表达基因测通,ONT测序技术也是如此。因此,测序深度主要影响低中表达的基因。低通量的局限性在研究功能基因组进行大规模差异基因分析时会更明显。为了获得足够的以保证转录组表达变化检测的准确性,需要对多个样品组的多个生物学重复同时进行测序分析。在这些应用上,长读长技术不太可能取代短读长技术,除非它们的通量能提高2个数量级。随着全长RNA-seq reads数目增加,转录本检测的灵敏度将会达到Illumina平台的水平,但有着更高的特异性。通过将Illumina 的短读长RNA-Seq与PacBio的长读长Iso-Seq结合 (并且可能还与ONT方法结合),在保留转录本定量质量的基础上,可以增加RefSeq注释的全长转录异构体检测的数量、灵敏性和特异性。尽管当前长读长RNA-seq方法实验成本更高,但它们可以检测短读长方法所遗漏的转录异构体,尤其是那些难以测序但与临床相关的区域,例如高度多态的人类主要组织相容性复合体MHC或雄激素受体。

长读长测序平台的第二个主要限制是其高错误率,比成熟的Illumina测序仪要高出一到两个数量级。长读长测序平台上生成的数据还包含更多的插入-缺失错误。如果是做突变位点检测这些错误率/错误形式会影响很大,但是对转录组分析影响并不是太大,只要能区分转录本和转录异构体即可。如果是应用于对错误率敏感的项目,也有一些办法进行补救。PacBio SMRT测序平台出现的典型测序错误是随机错误,可以通过增加测序深度来进行CCS序列矫正解决。在测序过程中,cDNA的长度是人为选择控制的,连接接头后形成环形模板,每个分子可以被测序多次,从而产生长度范围是10-60 kb的连续长序列,里面包含了原始cDNA的多份拷贝。这些长序列经过计算拆分成为单个cDNA子读长 (subreads),并比对在一起互相校正获得一致性序列。插入的cDNA分子测序到的次数越多,校正后错误率越低;研究表明CCS可以将错误率降低到与短读长相当甚至更低的水平。但是,把平台的测序能力用于读取相同的分子更加加剧了其测序通量低的问题,更少的独立转录本会被测到。

长读长RNA-seq方法的敏感性还受到其他几个因素的影响。首先,用于建库的RNA分子需要是全长转录本,但由于RNA提取、分离过程中会导致RNA断裂或实验过程中RNA降解,使得理想状态并非总能实现。这种情况在短读长RNA-seq中也会导致可控的3ʹ端偏好,但对定位于应用长读长的RNA-seq分析全长转录组的研究者来说,即使是低水平的RNA降解,效果也会受限。因此,相关研究者需要在RNA提取后进行严格质控。其次,中位读长长度也会受到文库制备中的技术问题与技术偏好的限制,例如cDNA合成过程中的截断或降解的mRNA反转录成的降解cDNA。最近研发的高效逆转录酶具有更好的链特异性和更均一的3’-5’转录本覆盖,可能会改善这一过程。虽然还没有广泛使用,但是这些高效逆转录酶也提高了对结构稳定的RNAs(如tRNAs)的覆盖检测,这是其它在基于oligo-dT和全转录组分析 (WTA) 的方法中使用的逆转录酶很难达到的效果。第三,长读长测序平台固有的偏好(如长插入文库在测序芯片上的更不容易进行测序)会降低更长转录本的覆盖率。

长读长测序 (不管是基于cDNA还是RNA) 因为读长长,解决了短读长测序方法用于转录异构体分析的短板。长读长方法可以获得从Poly(A)尾巴到5ʹ帽子的全长转录本读长。因此,这些方法对转录本和转录异构体的分析不再依赖于短序列重构转录本或推测转录本的存在;而是每个测序到的reads都代表它所来源的RNA分子。基于全长cDNA测序或dRNA-seq的差异基因分析依赖于PacBio和ONT技术的通量提高。长读长RNA-seq与深度短读长RNA-seq技术结合的思路正在迅速被研究者用于更全面的分析,这非常类似于基因组组装所采取的混合组装方式。随着研究的深入,长读长和dRNA-seq方法将会揭示:即便在研究的很透彻的物种中,已经鉴定出的基因和转录本可能也只是冰山一角。随着方法的成熟和测序通量的增加,基于长读长的差异转录本分析将会成为常规研究。基于组装的长读长RNA-seq (synthetic long-read RNA-seq)或其它技术的发展对这个领域的影响还有待观察。从目前来看,Illumina短读长RNA-seq依然占据了该领域的主导地位。后面我们只会集中讨论短读长测序。

改良RNA-seq建库方法

RNA-seq方法源于早期的表达序列标签 (expressed-sequence tag)和表达芯片技术,最初用于分析多聚腺苷酸化的转录本。但是,二代测序的应用发现了这些方法的局限性,虽然在表达芯片中并不明显。因此,在RNA-seq技术首次发表后不久,许多文库制备方法的改进相继推出。例如,片段化RNA而非cDNA可以降低3'/5'偏好,链特异性文库制备方法能够更好的区分正链和负链转录的基因,这些改进都能获得更准确的转录本丰度估计。片段化RNA和构建链特异性文库很快成了大部分RNA-seq文库制备试剂盒的标配。这里我们简要描述了RNA-seq方法的其它改进,以便研究者可以根据特定的生物学问题或样本自身特征进行选择。这些改进包括不基于oligo-dT的RNA富集方法,特异性富集3ʹ或5ʹ末端转录本的方法,使用UMIs区分PCR duplicates的方法,以及针对降解的RNA构建文库的方法。这些方法的组合(也包括dRNA-seq和后面提到的分析其它状态的RNA的方法)允许研究者揭示由可变poly(A) (alternative poly(A), APA),或选择性启动子 (alternative promoter)和可变剪接 (alternative splicing)导致的转录组的复杂性。

Poly(A)富集的替代方法

大多数发表的RNA-seq数据都是基于oligo-dT方法富集包含poly(A)尾巴的转录本,定位于分析转录组上的蛋白质编码区 (生信宝典注:部分lncRNA也有poly(A)尾巴)。但是这种方法除了会导致3ʹ端偏好外,很多不含Poly-A尾巴的非编码RNA,例如miRNA和增强子RNA不会被测到。完全不进行选择而使用全部提取的RNA也不合适,因为这会导致高达95%的测序数据来源于rRNA。因此,研究者选择将oligo-dT富集用于mRNA-seq,移除rRNA进行全转录组测序(WTA)。短链非编码RNAs(如miRNA)既无法用oligo-dT方法富集,WTA测序中也很难覆盖,因此对其研究需要特定的分离建库方法,一般是切胶或磁珠分选后直接连接接头 (sequential RNA ligation,通常构建出来都是链特异性文库) (生信宝典注:这一点尤其要注意)。

WTA生成的RNA-seq数据包含编码和一些非编码RNA。WTA方法也适用于Poly-A尾巴与转录本其它部分分开了的降解了的样品。移除rRNA有两种方法,一种是将rRNAs从总RNA中分离出来(所谓的pull-out法),另一种是使用RNAse H酶降解rRNA。这两种方法都需要使用序列特异性和物种特异性的、能与细胞质rRNA (5S rRNA,5.8S rRNA,18S rRNA和28S rRNA)和线粒体rRNA (12S rRNA和16S rRNA)互补的寡核苷酸探针。为了简化人类、大鼠、小鼠或细菌 (16S和23S rRNA)样本的处理,上述探针混合后再加入提取的总RNA中,与其中的rRNA杂交以便下一步的清除。其它高丰度的转录本,例如珠蛋白RNA (globin)或线粒体RNA也可以按照类似的方法去除。Pull-out方法中探针是带有生物素的,然后使用链霉素包裹的磁珠从总RNA溶液中除去探针-rRNA复合物,剩余的RNA用于建库测序,试剂盒有Ribo-Zero (Illumina,USA) (生信宝典注:还是Illumina取名字霸气)和RiboMinus (Thermo Fisher,USA)。RNAse H方法使用RNAse H (NEBNext RNA depletion(NEB,USA))和RiboErase (Kapa Biossystems,USA)降解oligo-DNA:RNA复合物。最近的比较表明,在RNA质量高的前提下,这两种方法都可以将产出数据中rRNA的比例降低至20%以下。但是,研究还表示RNase H方法比pull-out法的稳定性要好。另外对应用不同试剂盒获得的数据进行差异基因分析时要注意转录本长度的偏好性的影响。作者还描述了另外一种类似于RNase H的方法,效果也不错但之前没有报道过。ZapR方法是Takara Bio的专利技术,它使用一种酶来降解RNA-seq文库中的rRNA片段。相比于oligo-dT RNA测序方法,rRNA移除建库方法的一个局限是需要更高的测序深度,主要是因为文库中还有一定的rRNA留存。

Oligo-dT和rRNA移除法都可以用于后续实验的DGE分析,研究者们通常会延续实验室一直使用的方法或最容易使用的方法。然而,对于这些方法的选择需要根据情况做一些考量,尤其是那些易降解的样本,如果采用WTA方法会检测到更多的转录本,但是其实验成本也高于oligo-dT方法。

富集RNA 3ʹ端用于Tag RNA-seq以及可变多聚腺苷酸分析 (Enriching RNA 3ʹends for Tag RNA- seq and alternative polyadenylation analysis)

标准的短读长Illumina方法应用于高质量差异基因分析时需要对每个样本测序1000万到3000万条(10M到30M条)reads。如果研究者只关注基因水平的表达,并且样本数目比较多和生物重复比较多时,或者实验样品材料受限时,建议采用3ʹtag计数。由于测序集中在转录本的3ʹ末端,需要的测序深度会降低,就可以降低成本或同时测序更多样本。富集3ʹ末端也可以用于检测由于mRNA前体上发生的选择性多聚腺苷酸化导致的单个转录本的poly(A)位点的变化。

3ʹ mRNA-seq方法中每个转录本获得一条测序片段 (tag read),通常是对其3’末端的测序。tag read的数目理论上与转录本的丰度是成正比的。标签测序法 (tag-sequencing protocols),例如QuantSeq (Lexogen, Austria)通常比标准RNA-seq实验流程更为简单。标签测序法采用随机引物或带有oligo-dT的引物进行PCR扩增分选出转录本的3’末端的同时加上接头序列,优化掉了poly(A)富集、rRNA移除和接头连接等步骤。这一方法可以在更低的测序深度条件下达到与标准RNA-seq相当的敏感性,因此可以混合更多样本同时测序。因为不需要考虑外显子连接检测 (exon junction)和基因长度归一化,这一方法的数据分析也简化了(生信宝典注:其实也是需要考虑的,转录本末端或UTR区也会存在剪接,具体取决于测序读长和特定基因的结构。不过如果使用STAR/BWA等有soft-clip机制的比对工具也可以不考虑。)。但是,3ʹ mRNA-seq方法可能会受到转录本序列相似区域 (homopolymeric region) 导致的引物结合错误进而导致扩增出错误的片段的影响;也只能进行非常有限的转录异构体分析,这会抵消这一方法因为测序深度需求低带来的高性价比,尤其是对于那些仅够一次使用的样本。

mRNAs的选择性多腺苷酸化(APA)会产生3ʹ UTR长度不等的转录异构体。对于一个特定的基因来说,这不只是多转录出几个异构体,而是3ʹUTR中存在的顺式调控元件会影响转录本自身的调控。能够研究APA的方法可以让研究者们对miRNA的调控、mRNA的稳定性和定位、以及mRNA的翻译有更多理解。APA法要求是富集转录本的3ʹ末端,从而提升检测信号和灵敏度,而前面提到的3ʹ mRNA-seq标签测序法则正合适。其它方法如多聚腺苷酸位点测序 (polyadenylation site sequencing, PAS-seq)法,首先将mRNA打断为150 bp左右的片段,然后使用带有oligo-dT的引物进行模板置换生成cDNA用于后续测序,其中的80%的测序序列来源于3ʹUTR。TAIL-seq则避免使用oligo-dT,RNA打断前,先移除rRNA,然后在转录本poly(A)尾巴连接3ʹ接头。片段化后,再加上5ʹ接头就完成了文库制备。在RNA-蛋白互作分析方法如交联免疫沉淀 (cross-linking immunoprecipitation, CLIP)测序和dRNA-seq中也能评估APA。

富集RNA 5ʹ末端用于转录起始位点鉴定 (Enriching RNA 5ʹends for transcription start- site mapping)

富集5ʹ端RNA (7-methylguanosine 5ʹ-capped RNA)的测序的方法常用来鉴定启动子和转录起始位点(TSSs),可以做为DGE分析的补充。有多种方法都可以实现这个操作,但很少作为常规使用。在CAGE (cap analysis of gene expression)和RAMPAGE (RNA annotation and mapping of promoters for analysis of gene expression)方法中,使用随机引物完成cDNA第一条链合成后,mRNA 5ʹ帽子结构上用生物素标记,然后使用链霉亲和素富集5’ cDNA。CAGE使用II型限制性内切酶切割5ʹ端接头下游21-27 bp位置生成短cDNA序列。而RAMPAGE则使用模板置换 (template switching)来生成稍微长一些的cDNA,进行富集测序。单细胞标签逆转录测序技术 (single-cell-tagged reverse transcription sequencing, STRT-seq)能够在单细胞水平上鉴定TSS位点。这一方法使用生物素标记的模板置换寡核苷酸来合成cDNA,磁珠捕获并在5’端片段化然后测序。CAGE应用到的5ʹ末端标记技术是由日本理化所 (Riken)开发用于在早期功能基因研究中最大化获得全长cDNA的方法。日本理化所领导的小鼠功能注释 (FANTOM, Functional Annotation of the Mouse)项目中使用CAGE技术鉴定了1300多个人类和小鼠原代细胞、组织和细胞系的TSSs (转录起始位点),这充分显示了CAGE的强大。在最近的一个方法比较研究中,CAGE也表现最佳。但是作者同时也说到,仅使用5ʹ末端捕获测序鉴定出的TSS位点假阳性比较多,建议结合其他独立的方法进一步验证,如DNase I测序或H3K4me3染色质免疫共沉淀测序 (ChIP-seq)。

使用唯一分子标识符来检测PCR重复

RNA-seq数据通常有较高的重复率 (duplication rates),即许多测序序列会比对到转录组的相同位置。在全基因组测序中,比对到同一位置的序列被认为是PCR扩增引入的技术噪音,通常只保留1条用于后续分析;而在RNA-seq中,这些重复的序列则因为可能是真实的生物信号而被保留。高表达的转录本在样本中可能有数百万份RNA拷贝,当做为cDNA测序时,产生相同的片段也是合理的。因此,在比对 (alignment)过程中,不建议计算去除比对到同一位置的序列,因为它们代表了真正的生物信号。尤其是在使用单端测序 (single-end sequencing)时更是如此,因为一对片段只要一端序列相同就会被认为是一个重复 (duplicate);而双端测序 (paired-end sequencing)中,片段化的两端必须发生在同样位置才会导致duplicate,而这个的发生概率比较低。但是,在制备cDNA文库时,由于PCR的偏好性,还是会引入duplication reads;很难去评估PCR引入的重复reads和生物重复reads的比例并把其作为一个质控因素校正RNA-seq实验的结果。

UMIs被认为是一个处理扩增偏好性的方法。在cDNA分子扩增前加入随机UMIs可以用于识别并计算移除PCR引入的重复,而不影响到基因自身表达引入的重复,进而改善基因表达定量的结果和评估等位基因的转录。如果一对测序reads包含有相同的UMI并且比对到转录组的同样位置,则被认为是技术引入的重复 (对单端测序来说,这里的一对测序reads是测序生成的两条序列;对双端测序来说,一对测序reads指同时包含左端和右端的两条测序序列)。

UMIs已经被证明能够通过降低检测到的基因表达变化波动和假阳性率改善RNA-seq差异基因的统计分析。因为单细胞数据的扩增偏好更严重,UMI的使用对单细胞数据结果可靠性至关重要。当使用RNA-seq数据进行变异检测 (variant calling)时,UMIs也非常有用。高表达的转录本更容易达到适合变异检测的高覆盖率要求,尤其在考虑了重复reads时,而UMIs可用于移除PCR扩增引入的reads,从而校正等位基因频率的计算。UMIs已成为单细胞RNA-seq (scRNA-seq)的文库制备试剂盒的标配,也越来越多的用于常规RNA-seq。

改善降解了的RNA的分析

RNA-seq文库制备方法的发展也促进了低质量或降解了的RNA的分析,例如从临床获得的福尔马林固定石蜡包埋(FFPE)存储的样本中的RNA。低质量的RNA会导致不均匀的基因覆盖,更高的DGE假阳性率和更高的重复率,与文库的复杂性呈负相关。文库制备方法优化的方向是尽量降低RNA降解的影响。这些方法在开发基于RNA-seq的诊断技术中尤为重要,如类似于基于21个基因RNA特征来预测乳腺癌复发的OncotypeDX试剂盒(尚不基于测序)类似的检测工具。虽然现在有几种方法可以使用,但是比较研究显示两种方法表现最佳,即RNase H与RNA exome。如前所述,RNase H法使用核酸酶消化RNA:DNA复合物中的rRNA,但保留降解的mRNA用于后续测序。RNA exome方法使用寡核苷酸探针来捕获RNA-seq文库分子,非常类似于外显子测序 (exome sequencing)使用的策略。这两种方法应用简单,并都能在保留降解的和片段化的mRNA的前提下降低混入的rRNA的影响,进而获得高质量的和高稳定性的基因表达数据。3ʹ末端标记测序技术与扩增子测序(PCR扩增超过2万个外显子)方法也可以用于分析降解的RNA,但这两种方法并没有RNase H方法应用广泛。

设计更好的RNA-seq实验

好的DGE RNA-seq实验设计对获取高质量和有生物意义的数据是至关重要的。特别需要考虑的是生物重复的数目、测序深度、采用单端还是双端测序。

生物重复与统计检出力 (replication and experimental power)

实验中必须包含足够的生物学重复以捕获组内样品自身存在的生物差异。定量分析的可信度更多地取决于生物重复,而非测序深度或reads长度。尽管RNA-seq的技术稳定性高于微阵列平台,但生物系统固有的随机变异要求进行常规RNA-seq实验必须要重复一次。额外的重复能够帮助发现异常样品;并且在后续分析前,如有必要时移除或降低异常样品的权重。确定最佳重复数需要仔细考虑几个因素,包括预期的最小变化幅度 (effect size)、组内变异、可接受的假阳性和假阴性率以及最大能用于实验的样本量,并且可以通过使用RNA-seq实验设计工具或统计功效工具进行辅助设计。(http://www.biostathandbook.com/power.html )

样品生物学重复数据选择 1必要性  2需要多少重复?

确定实验的正确重复数并不总是那么容易。一项48个重复的酵母研究表明,当分析中仅包含3个重复时,许多用于DGE分析的工具仅检测到20-40%的差异表达基因。该研究表明,至少应使用六个生物重复,这大大超过了RNA-seq文献中通常报道的三个或四个重复。最近的一项研究表明,四个重复可能就足够了,但它强调了测量生物学差异的必要性-例如,在确定出重复数之前先进行预实验。对于高度多样化的样本(例如来自癌症患者肿瘤的临床组织),可能需要进行更多重复才能检测出高可信度的变化。

确定最佳测序深度

RNA-seq文库构建好后,就需要确定测序深度了。测序深度是指每个样品获得的测序序列数量。对于真核基因组中的bulk RNA DGE实验,通常需要每个样品大约10–30百万条测序reads。但是,多个物种的比较分析表明,对于最高表达的50%的基因来说,每个样本只需要测序1百万条 reads就可以获得与测序3千万条reads相似的表达定量结果。如果只关注最高表达的基因相对大的表达变化,并且有合适的生物学重复,那么较少的测序就足以产生驱动后续实验的假说。测序完成后,估计的测序深度可以通过检查样品之间reads的分布和绘制饱和度曲线验证,并且饱和曲线还可以评估加测是否能提高检测敏感性。随着测序仪测序通量的增加,将一个实验的所有样品混合到一起同时上机测序(甚至在同一个lane里面测序)是控制技术偏差的标准做法。总产出reads数是样本数与每个样本期望获得的reads数的乘积;如果有必要,混合的文库测序足够多的次数以达到所需的总reads数。混样测序需要仔细测定每个RNA-seq文库的浓度,并假定混合的不同样品中cDNA的总量相差不大(低方差),因此读取的总reads数才能均匀地分到各个样品中。在进行昂贵的多通道混合测序之前,运行单个lane确认样品之间cDNA总量相差不大是值得的预操作。

选择测序参数:reads长度和单端或双端测序。

最后需要确定的测序参数包括reads长度以及是生成单端还是双端reads。

在许多测序应用中,测序reads的长度对数据可用性有很大影响,更长的测序reads可以覆盖更多的测序DNA。当使用RNA-seq鉴定DGE时,影响数据的可用性的重要因素是确定每个reads来自转录组中哪个基因的能力。一旦可以明确地确定reads位置,测序更长的reads在基于定量的分析中就没必要了。对于更定加性的RNA-seq分析(例如鉴定特定isoforms),更长的reads可能会更有帮助。

单端测序与双端测序的问题类似。在单端测序中,每个cDNA片段的一个末端(3′或5′)用于产生测序reads,而双端测序中每个片段产生两个测序reads(一个3′和一个5′)。在需要测序尽可能多核苷酸的实验中,首选long-read paired-end测序。在DGE分析中,用户只需要计算比对到转录本的reads数即可,故不需要对转录本片段的每个碱基都进行测序。例如,将“短”的50 bp的单端测序与“长”的100 bp的双端测序的DGE分析比较表明单端测序也可以获得一致的结果。这是因为单端测序足以确定大多数测序片段来源的基因。相同的研究还表明,短的单端测序会降低检测转录isoform的能力,更少的reads会跨越exon-exon junction。双端测序还可以帮助消除序列比对 (read mapping)的歧义,适用于可变外显子定量 (alternative-exon),融合转录本检测和新转录本发现 ,尤其在注释较差的转录组应用中效果明显。

实际上,单端或双端测序的选择通常取决于成本或用户可用的测序技术。在发布Illumina NovaSeq之前,在大多数情况下,单端测序每百万条reads的成本要低于paired-end测序,因此在相同的实验成本下,可以测序更多的重复或测序更深。如果需要在获取大量较短的单端reads与生成较长和/或双端的reads之间进行选择,则测序深度的增加将对提高DGE检测的敏感性更重要。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3