下机数据处理：拼接、过滤和去嵌合

您所在的位置：网站首页 › flash软件什么意思 › 下机数据处理：拼接、过滤和去嵌合

下机数据处理：拼接、过滤和去嵌合

2023-10-04 12:48| 来源: 网络整理| 查看: 265

下机数据处理：拼接、过滤和去嵌合

参考链接：https://mp.weixin.qq.com/s/aHCMS2yXsAGtmrE8VkDAbg

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RIanoUPR-1606740390975)(C:\Users\12759\AppData\Roaming\Typora\typora-user-images\image-20201129161922274.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-of48x4Wd-1606740390984)(C:\Users\12759\AppData\Roaming\Typora\typora-user-images\image-20201129162004285.png)]

数据包含腹泻D和健康H断奶仔猪，有1、3、7、11个时间点，每个时间点有8个样本（D1有6个，H1无H1.6）。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2C9zaLfR-1606740390986)(C:\Users\12759\AppData\Roaming\Typora\typora-user-images\image-20201129162410489.png)]

混合双端、V3-V4区域测序，00.RawData已经进行了样本拆分、barcode去除和引物切除。每个样本文件夹里有5个文件，第一个extendedfrags.fastq文件是拼接后的序列，raw_1fq.gz和raw_2.fq.gz是未去barcode和引物的双端序列；最后两文件是去掉引物和barcode后的原始数据。

处理过程：先将双端序列进行合并，即reads拼接，用的是flash软件，得到extendedfrags.fastq文件；然后利用qiime1 的split_libraries_fastq.py软件过滤掉低质量序列，即tags过滤或质控，得到.fna文件；再利用vsearch软件进行嵌合体过滤。

01Reads拼接

首先根据Barcode序列和PCR扩增引物序列从下机数据中拆分出各样本数据，截去Barcode和引物序列后使用FLASH软件对每个样本的reads进行拼接，得到的拼接序列为原始Tags数据（Raw Tags）。

FLASH拼接的流程：

a. PE reads比对，找到overlap；

b. 当overlap大于设定的最小overlap值时，执行下面操作：

1）计算overlap长度；

计算错配的数目和overlap的长度两者的比值作为overlap的错配率；

如果计算所得overlap错配率小于现有最优overlap错配率，则将其存为新的最优overlap；

如果错配率和最优overlap一致，计算overlap中所有错配的平均质量值；如果这个平均质量值高于现有最优overlap，则将其存为新的最优overlap；

5）此外，flash软件考虑到 3’端序列质量存在系统性降低趋势，其会根据片段长度在保证PE reads重叠区长度的基础上在3’

【本文地址】

下机数据处理：拼接、过滤和去嵌合

下机数据处理：拼接、过滤和去嵌合

今日新闻

推荐新闻