写在前面:根据“白烟囱假说”,一切的一切都从深海热液开始。从最初的单细胞生物到如今繁杂的世界,为了适应不断变化的外界环境,生物体需要不断且缓慢地改变自己。46亿年的演化,基因的消亡、出现不断发生,给生物体带来了不一样的机遇······
1. Summary
基因家族扩张收缩分析可细分为六部分:
获取每个基因对应的最长编码区转录本
OrthoFinder聚类基因家族
系统发育树推断
物种分歧时间推断
基因家族扩张收缩分析
功能富集
2. 正文
目前,似乎大家都是自己写程序提取基因的最长转录本,写起来还是有些费劲的,这里是我的方案
从注释文件拿到最长转录本信息
从基因组中提取序列
2.1 提取最长转录本ID
最后的信息输出在注释文件所在目录的longest_protein_list.txt中
如果是NCBI里的数据,identifier_type选CDSNAME更便于后续操作
# 1. packages and external scripts ---------------------------------------- TODO:
suppressWarnings(suppressMessages(library(GenomicFeatures)))
# 2. functions ------------------------------------------------------------ TODO:
# 3. input ---------------------------------------------------------------- TODO:
Args |