Illumina测序数据的质量控制

您所在的位置：网站首页 › illumina测序结果分析 › Illumina测序数据的质量控制

Illumina测序数据的质量控制

2024-04-21 03:30| 来源: 网络整理| 查看: 265

我们先来看一下不同平台数据格式：

1. 产出数据格式

Solexa—fastq

Illumina测序数据的质量控制-图片1

2. 产出数据格式

454—fasta

Illumina测序数据的质量控制-图片2

测序读长即每条测序读断的长度，所有平时大家叫的reads就是测序仪产生的读断。当然目前基因组拼接的主流平台仍然是Illumina，那么什么叫做测序数据质量值呢？质量值即每个碱基测序的错误率，如果p表示错误的可能性，那么质量值与这种可能性如何对应呢：

Illumina测序数据的质量控制-图片3

下图为错误率分别是0.1、0.01、0.001、0.0001时的碱基质量值的大小。

Illumina测序数据的质量控制-图片4

当然，测序碱基的错误率越小，质量值越高。所以如果你看到你的测序结果Q30的 reads数占到总Reads数的98%以上，那么恭喜你，这次测序非常好。

小伙伴表示：我明明看到reads质量值一行都是一些乱码，哪来的质量值？是这样的，测序仪产出的质量值都是一些ASCII码，也就是键盘上的十进制数，需要将其转换为16进制并减去Qphred的结果即为该碱基的测序质量值，按照测序时的设定值进行选择33或者64。

我们来看一下reads碱基测序错误率分布：

Illumina测序数据的质量控制-图片5

也就是说随着测序的进行，测序的错误率是随之升高的，这可能是由于聚合酶的保真度降低，二代测序固有的特点导致（荧光标记基团）。

以下为碱基分布类型的分布图：

Illumina测序数据的质量控制-图片6

碱基类型分布检查用于检测有无AT、GC分离现象，由于所测的序列为随机打断的DNA片段，因随机性打断及碱基互补配对原则，理论上，G和C、A和T的含量在每个测序循环中应分别相等，长链非编码测序多采用链特异建库，GC、AT会存在一定的波动。由于Reads 5’端的前几个碱基为随机引物序列，存在一定的偏好性，因此会在碱基分布图中出现前端波动较大的现象。

那么，我们怎样对我们的数据进行质量评估与过滤呢。

大部分公司给的都是Clean data，也就是高质量的reads，如果不幸你拿到的是rawdata，或者自己测序的数据怎么办？

Trimmomatic是一个针对 Illumina数据处理工具。可针对paired-end 也能处理single ended。它能够利用fastq文件（phred + 33或者phred + 64碱基质量格式，取决于Illumina测序的机器）。

Trimmomatic用两种策略来去除adapter: Palindrome and Simple

软件下载地址：

http://www.usadellab.org/cms/?page=trimmomatic

PairedEnd Mode:

java -jar PE [-threads

【本文地址】

Illumina测序数据的质量控制

Illumina测序数据的质量控制

今日新闻

推荐新闻