RNA

#RNA| 来源: 网络整理| 查看: 265

测序结束，满怀期待的拿到了沉甸甸的数据。

好长的实验报告，好多文件夹，好多excel表格，好多图。于是，很多医生默默选择关闭笔记本电脑，暂且放下这天书一般的数据……

其实，RNA-seq数据解读并不难，最核心的内容就是要解读各种数据展示图形。实验报告里的图，都是把测序获得的大数据，经过生物信息学方法分析，最终以最直观的图形展示出来。所以，只要理解了RNA-seq结果中的所有图示，基本上就对RNA-seq的结果有了充分的掌握。今天小编先为大家介绍RNA-seq结果第一部分常见的图示，这些图反映了测序的质量。有了质量的保证，后续的数据分析才有价值。

接下来，便是”看图说话“时间！

Pat1用于展示RNA-seq测序原始数据质量的图示

当二代测序的原始数据拿到手之后，第一步要做的就是看一看原始reads的质量。如果一开始质量就不行，后面什么分析都是在浪费时间啊！这一步常用的工具是Fastqc。通常，会以单碱基质量分布图，ATCG含量分布图去展示原始数据的质量。

单碱基质量分布图（体现了测序错误率高不高）

为什么一个样本会有2张这个图？答: 测序的时候，所有上机片段都是约300bp的文库。测序采用2*150bp的测序模式，即从最左端测150bp，再从最右端测150bp。所以每个片段都会得到2个序列，这两个序列就是我们常说的read。所以，碱基质量分布图会有2个，分别与read1和read2对应。 X和Y轴都是什么意思？答： X轴是一条read中，每一个碱基的位置(因为read1一共就150bp长度，所以X轴一般都是1到150左右)；Y轴是每一个碱基的碱基质量值，这个质量计算公式为-10*log10(p)，p为测错的概率。所以如果一条read 1第一个碱基出错概率为0.01，其quality就是20。最上面的竖线，黄框，蓝线是什么意思？答：对于一个样本，在RNA测序完成后会获得几千万条read1. 对于read1的第一个碱基，也就会有几千万个碱基质量值。那么我们就需要统计这几千万个碱基质量值的中位数，均值等等，以展示read1的第一个碱基的质量。这里：红色表示中位数，黄色是25%-75%区间，触须是10%-90%区间，蓝线是平均数。整个图形划分为绿色，黄色，红色三块，代表什么意思？答：背景色根据碱基质量的大小分成绿色，黄色，红色三个部分，绿色代表碱基质量在28以上，处于绿色区间证明该位点碱基质量较高，错误率在0.01%以下；黄色代表碱基质量在20-28之间，错误率在0.1%-0.01% 之间，处于黄色区间证明该位点碱基质量稍差，但是也属于可接受范围；红色代表碱基质量在0-20之间，错误率在0.1%以上，此时的碱基质量就非常差，测出来的序列可信度不高，会影响下游分析的准确性，应该去除这样的低质量序列。

A/T/G/C含量分布

（统计ATCG四种碱基的分布，看看是不是有测序偏差）

说明：人类基因组中，AT配对，GC配对，高等生物中GC含量会略低于AT含量。所以好的测序结果应该是A与T平行且接近，G与C平行且接近，AT平行线所占比例略高于25%。通常测序一开始或者结束的时候，会有一些含量的突然变化，属于正常的测序bias。Pat2用于展示RNA-seq测序数据是否来源于RNA

花了大价钱完成RNA测序，获得的数据如果不是来源于RNA，就等于钱白花了。所以，测序数据与参考序列的比对分析，是RNAseq数据分析关键的一步，通常使用RNA_seQc软件绘制序列比对饼状图。

样本reads在参考基因组不同区域的分布图

（展示得到的数据是否来源于基因编码区）

说明：该图显示了每个样本的序列在Exon (外显子)、Intron (内含子) 和Intergenic (基因间隔区域) 区域的分布，可用于评估实验建库是否存在异常情况；正常情况下，Exon (外显子) 区域的测序序列定位的百分比含量应该最高，定位到Intron (内含子) 区域的测序序列可能是由于非成熟的mRNA的污染或者基因组注释不完全导致的，而定位到Intergenic (基因间隔区域) 的测序序列可能是因为基因组注释不完全以及背景噪音。Pat3 用于展示RNA-seq测序数据量是否足够

RNA测序前，我们可能遇到的问题是到底要测多少数据量。这个答案不是随口说的，通常需要依据前期他人的经验或者自己进行的饱和度评估。饱和度评估是在做这样一件事：假如测序结束获得250万条unique mapping的reads。我们采用梯度随机抽取法，分别抽取10万，20万，30万，40万, 直至240万,250万的reads，然后分析这些不同数据量的reads分别检测到多少基因。把reads数和检测的基因数画一个曲线，看看这条曲线在多少数据量能达到平台期，这种图就展示了饱和度评估的结果。对于研究者来说，最佳的测序数据量就是：在这个基础上增加测序数据量，获得的基因几乎不增加或者很少增加。

转录组数据饱和度图（展示得到的数据量是否足够）

(BMC Genomics. 2014 Jun 2;15:419. doi: 10.1186/1471-2164-15-419)

说明：这篇文章对比了多重RNA测序文库和RNA芯片的饱和度问题。其中mRNA-seq是polyA富集法，Ribo-Zero是核糖体去除法，DSN-Seq是双链特异性核酸酶处理法，FFPE是石蜡包埋样品。图上可以看出，约1350万read的mRNA-seq就能达到芯片的检测量。石蜡样品要求测序量要多一些才能达到饱和。Pat4 用于展示RNA-seq测序是否有偏向性

基因覆盖度分析结果图

说明：同时展示了测序是否有偏向性或者RNA降解。

以上便是RNA-seq数据质量相关的图示介绍。下一期预告：RNA-seq结果怎么才能看懂? 答案全在这些图里---（2）基础分析结果篇，将重点介绍RNA-seq结果最常见的PCA图，MA图，火山图，聚类热图，韦恩图等。敬请期待！

【本文地址】

RNA

RNA

今日新闻

推荐新闻