【RNA

您所在的位置:网站首页 cpm格式转化 【RNA

【RNA

#【RNA| 来源: 网络整理| 查看: 265

在RNA-seq上游的流程中,所得到的产物为表达矩阵,一般指通过RSEM、HTseq等量化工具统计得到的,各个样本比对到参考基因组中各个基因的reads数,一般成为raw read count,这也是最简单的表达定量形式。

但是在分析不同样本中基因的表达量时,使用raw read count是不够严谨的,往往还需要进行表达矩阵的归一化处理,这种处理需要的解决的问题如下:

1.目标基因的转录本长度,长度越长的转录本对应能够mapping上的reads数也越多,无法反映该基因实际的表达情况

2.总的有效比对的reads数量,即去除没有mapping上的,或者匹配不准确的reads,显然测序深度越深,总的有效比对的reads数量越多,每一个基因对应mapping到的reads数量也越多

Coverage ratio(覆盖比率,亦简称覆盖率,亦称基因组覆盖率),指被测序到的碱基占全基因组大小的比率。

Coverage depth (覆盖深度,亦称测序深度,或者碱基平均测序深度),指每个碱基被测序的平均次数。即测序的数据总量比基因组大小

3.测序的偏差

方法一:RPKM

RPKM: Reads Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的reads)

将raw counts除以改样本总的有效的(匹配上的)reads数(以KB为单位),以减少测序深度的影响;再除以该基因的转录本长度(以百万为单位),即真核生物外显子长度和、原核生物编码区长度和,以减少基因长度的影响 。

在single-end测序中,一个read就是一个read。而在pair-end测序中,若一对paired-read 都比对上了,当做两个read;若只有一个read比对上,另一个未比对上,当做一个read计算。

 局限性:该算法除以有效比对的reads总和的这种方式,排除了测序深度对总reads数的影响,但是没有考虑到基因转录本长度对reads总和的影响,可以说RPKM是先进行测序深度标准化,后进行基因长度标准化。为了排除转录本长度对reads总和的影响,应当首先进行基因长度标准化,载根据长度标准化后的reads总和进行测序深度的标准化,TPM算法应运而生。

方法二:TPM

TPM:Transcripts Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)

TPM是先根据基因长度矫正count值,即用count值除以基因长度(百万为单位)得到矫正后的reads数,将所有校正后的count值相加得到矫正后的总counts值,将校正后的count值除以校正后的总count值,得到TPM值。

方法三:FPKM

FPKM: Fragments Per Kilobase of exon model per Million mapped fragments(每千个碱基的转录每百万映射读取的fragments)

一般是针对双端测序的方法

在single-end测序中,FPKM将read当做fragment计算,此时FPKM和RPKM是相同的。而在pair-end测序  中,  若一堆paired-read 都比对上了,当做一个fragment。

方法四:RPM/CPM

RPM/CPM: Reads/Counts of exon model per Million mapped reads (每百万映射读取的reads)

RPM(CPM)是指将count数除以总有效匹配的count数,以排除测序深度的影响,常常用于长度差异不大的sRNA的分析

 

参考链接:​​​​​​对FPKM/RPKM以及TPM的理解 - wangchuang2017 - 博客园

TPM、RPKM与FPKM相互转换 - 简书 (jianshu.com)

RPKM简介 | Public Library of Bioinformatics (plob.org)



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3