测序数据的拆分、合并、质控以及callsnv

您所在的位置:网站首页 合并后怎么拆分 测序数据的拆分、合并、质控以及callsnv

测序数据的拆分、合并、质控以及callsnv

2024-07-07 20:54| 来源: 网络整理| 查看: 265

一、windows端的原始数据处理

首先要明白为了提高测序效率,需要把不同的文库合并到一起进行测序,为了区分不同文库的不同样本,加了不同I5用以区分文库,加了不同I7用区分不同样本。

在这里插入图片描述

我们这边红色框选部分是I5,蓝色框选部分是I7

因提高测序效率和数据量上限的关系,不同的文库可能被分到不同的Lane中,所以对于分到不同Lane中的数据要分开拆分再进行合并,以下以此为例: 在这里插入图片描述

131在Lane1中有44%的数据量和Lane2中有13%的数据量(一般MU21的的数据量总和在50%-60%左右,不排除个别特殊情况),因为131文库存在合并操作,下面操作以此为例。

为了满足拆分数据的格式,需要对条码信息的数据进行初步的整理,保证数据能满足以下条件:

找到对应的sample sheet文件(此处为131在Lane1和Lane2中分别有一部分);

在这里插入图片描述 在这里插入图片描述

样本条码后加LA“n”表示在那一条Lane上为后面合并做依据,黄色部分是需要的,要保证样本条码在第三列,I7+I5在第五列(测数据是I5+I7,拆分数据是I7+I5); 在这里插入图片描述Lane2的131同理操作。 二、linux端数据的拆分与合并 使用Xshell登陆

在这里插入图片描述

在这里插入图片描述 在这里插入图片描述

创建文件夹project/MU21/MU21O-131/fastq MU21O:代表MU21-old mkdir project cd project mkdir MU21 cd MU21 mkdir MU21O-131 cd MU21O-131 mkdir fastq cd fastq 在fastq文件夹下建一个sam_MU*索引文件,将样本条码(第三列)和I7+I5(第五列)粘贴进去 cat > sam_MU21O-131 1020201018120 1020201018120LA1 CTGGAGCG+ATGTATAG 1372010170158 1372010170158LA1 CGCTGTAG+ATGTATAG 找到对应的Lane结果 在这里插入图片描述软连接到fastq文件夹下面(R1、R2代表read1、read2) ln -s /data/qiny/rawdata/201112_X-TEN/MU21-130-131_Lane3_RSJCX2011060009_LaneBarcode16_undetermined_data/Undetermined_S0_L003_R1_001.fastq.gz ln -s /data/qiny/rawdata/201112_X-TEN/MU21-130-131_Lane3_RSJCX2011060009_LaneBarcode16_undetermined_data/Undetermined_S0_L003_R2_001.fastq.gz

在这里插入图片描述

以sam_MU*文件为索引,建立在不同的Lane(.fastq.gz n)中的pbs拆分脚本 sh /data/qiny/pipeline/basecalling/split_data.sh Undetermined_S0_L003_R1_001.fastq.gz 1 sh /data/qiny/pipeline/basecalling/split_data.sh Undetermined_S0_L003_R2_001.fastq.gz 2

建立脚本后fastq内文件如下 在这里插入图片描述 运行拆分脚本

sh runsam_MU21O-131.1.pbs

运行正常页面如下:在这里插入图片描述 每个样本都会生成一个.fastq.gz的文件在这里插入图片描述

同样步骤完成Lane2之后,运行combine_sample_LA.pl将LA1与LA2合并,并删LA1与LA2 perl /data/qiny/pipeline/basecalling/combine_sample_LA.pl 三、QC(质控)

此步QC仅是对数据量的统计,不删除任何数据

删除软连接文件(因为 *.fastq.gz被进行下一步运算,软连接文件过大,耗费资源过多) rm Undetermined_S0_L003_R*

删除内容:在这里插入图片描述

对 *.fastq.gz的文件生成用于QC的pbs文件 sh /data/qiny/pipeline/basecalling/runQC.sh MU21O-131

运行结果: 在这里插入图片描述

运行pbs文件

运行单个

qsub runs1372010170158_1.fastq.gz.pbs

在这里插入图片描述

运行所有

sh run.sh

在这里插入图片描述

四、SNP and Indel 下载MU21的CFG文件 在这里插入图片描述 并使用notepad++修改sample文件

在这里插入图片描述 整理样本名为“S+样本编号+空格”在这里插入图片描述 修改文库名及样本名在这里插入图片描述 修改后的 *.CFG文件和 *.SH文件,上传至MU21O-131文件夹下在这里插入图片描述

运行 *.cfg文件,建立out文件夹、子文件夹、批量提交文件(01_pbs.sh)、callsnv文件(02_callsnv.pbs)和删除短序列等 sh exome_pipe_mu21.sy210.sh sample.MU21.sy210.cfg

运行完成后会在MUO-131下多一个out文件夹在这里插入图片描述

进入out/code文件夹,QC结束后运行01_pbs.sh文件,结束后运行02_callsnv.pbs cd out/code/ sh 01_pbs.sh sh 02_callsnv.pbs

结果会显示在out下的05和06文件夹 发送到群里的文件如下: 在这里插入图片描述



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3