王鹏/王飞Trends in Genetics观点文章:基因组组装质量评价体系

您所在的位置:网站首页 基因组相关论文 王鹏/王飞Trends in Genetics观点文章:基因组组装质量评价体系

王鹏/王飞Trends in Genetics观点文章:基因组组装质量评价体系

2024-02-13 07:52| 来源: 网络整理| 查看: 265

原创 Cell Press CellPress细胞科学 

生命科学

Life science

当一个基因组组装完成后,需要对其组装质量进行评价。只有获得了全面、准确的质量指标,才能确认其是否符合开展后续分析的需求。虽然人类基因组公布已经过去了二十多年,但是本领域内始终没有得到广泛认可的基因组组装质量评价体系。近日,来自中国热带农业科学院的王鹏研究员和来自上海应用技术大学的王飞博士,在Cell Press细胞出版社旗下Trends in Genetics期刊发表“观点”综述,全面回顾了N50、BUSCO等流行的组装质量评价指标,提出了CC ratio(contig/染色体对数比例)指标,并提出了覆盖连续性、完整性、准确性、杂合性、细胞器基因组等五个方面14个指标的基因组组装质量评价体系。

连续性(Contiguity):CC ratio指标的提出

长期以来,科研人员用N50评价基因组组装的连续性,一般指contig N50,即将所有contigs从长到短排列,排到长度为基因组大小的一半时contig的长度即为N50值。除N50外,科研人员还采用NG50、N90等类似指标。这些指标在早期、尤其是以二代测序为基础的基因组组装的质量评价中,是评价连续性的一个较有效的指标。然而,随着测序技术的进步,组装连续性不断提高。现在,一个中等大小的真核生物基因组,contig N50可轻松超过1Mb。当每个新组装的基因组N50值都很高时,N50在区分不同基因组组装连续性上的价值已经不高。尤其是随着越来越多的T2T(端粒到端粒)基因组的公布,contig N50事实上已成为chromosome N50,这时contig N50彻底失去了价值。

为弥补N50及类似指标的弱点,作者提出了CC ratio指标,即contig数目与染色体(Chromosome)对数的比值。该值计算方法简单,且相对于N50,更加直观:一个基因组的连续性越高,CC ratio就越低;当一个基因组组装到了T2T水平,CC ratio即为1,达到了最低值。例如,第一个版本的玉米(B73)基因组,CC ratio为12532.5;最新公开的玉米(B73-Ab10)基因组组装版本的CC ratio为6.3。对于N50,这个指标不仅可以用于同一物种不同组装连续性的评价,还可以用于不同物种的基因组连续性的比较。例如,水稻T2T基因组的contig N50约为32Mb,而最新的玉米基因组contig N50为162Mb,然而由于水稻T2T基因组已无gap,而玉米基因组含有54个gaps,所以显然水稻基因组组装质量高于玉米。而考察CC ratio,水稻为1,而玉米为6.3。因此,CC ratio作为评价连续性的指标,计算方法简便,结果直观、有效。

完整性(Completeness):BUSCO的局限性及重复序列区域的重要性

BUSCO是当前流行的基因组完整性评估指标。它将目标基因组序列与单拷贝同源基因数据库进行比对,通过获得完整比对的基因百分比来判断基因组组装的完整性。多项研究表明,在考察水生生物、裸子植物及一些具有特殊生境或生活习性的生物(如洞穴生物)时,该指标往往低估基因组编码区域的完整性。更大的问题在于,该指标仅考察了蛋白编码区域的完整性,然而事实上整合生物基因组中大部分为非编码区域。在当前的基因组组装技术水平上,组装最有难度的区域往往是串联重复区域,包括端粒、着丝粒、rDNA区域。因此,相较于蛋白编码区域,考察重复序列区域,尤其是串联重复序列区域,更能反映一个基因组组装的完整性水平。

▲图1. 基因组连续性(contiguity)和完整性。(A)基因组连续性图示,右侧显示不同连续性水平的CC ratio结果。(B)根据k-mer计算组装完整性。(C)BUSCO计算结果示例。(D)组装难度大的基因组区域,包括端粒、着丝粒和rDNA区域。

准确性(Correctness):常被忽视的基因组质量指标

准确性是和连续性、完整性同等重要的组装质量考察领域,然而很多基因组相关论文忽略了对组装准确性的考察。基于k-mer的consensus quality value(QV),可以用于评估序列位点的准确性。在基因组组装中,常常出现倒装、易位、错误连接、拷贝数错误等结构水平的错误。对这些结构水平的基因组组装准确性评价,更是常常被忽视的方面。

基因组杂合性和细胞器基因组:组装质量评价不可忽视的因素

真核生物基因组常常为杂合基因组,杂合度在不同物种或材料中存在较大的差异,而高杂合度基因组组装的组装一度成为基因组组装的难题。然而,在考察基因组组装质量时,常常忽略这一因素。

除核基因组外,真核生物中还包含细胞器基因组,如线粒体和植物中的叶绿体基因组。然而,很多作者所声称的高质量基因组数据,甚至发表在一些高质量学术杂志上的基因组数据,缺乏细胞器基因组组装结果。在基因组相关文献中,更是缺乏对细胞器基因组组装质量的评价。

完整的基因组组装质量评价体系

在本文中,作者提出了一套基因组组装质量评价体系,涵盖连续性、完整性、准确性、细胞器基因组、杂合基因组等五个领域,包括14个质量指标。针对每个指标,作者提出了完美的基因组组装的期望值。作者建议,每一个新释放的基因组,均用该评价体系,对基因组组装质量进行完整的评价。

▲表1. 基因组组装质量评价体系。

论文作者介绍

王鹏

研究员

王鹏,理学博士,研究员。中国热带农业科学院热带作物品种资源研究所学术委员会副主任,海南省“南海名家”青年项目获得者,海南省人大代表。2002年本科毕业于华南农业大学,2007年研究生毕业于复旦大学(硕博连读),2008-2012年先后在University of Alberta和University of Nebraska-Lincoln开展博士后研究,2012年至今就职于中国热带农业科学院。主要开展热带农业基因组学研究工作,研究成果发表于Genome Biology、Plant Physiology、Journal of Biological Chemistry、Planta等杂志。

王飞

博士

王飞,工学博士。2004年本科毕业于天津工程师范学院;2010年毕业于上海大学,获硕士学位;2012-2013年公派美国Wayne State University,2017年毕业于同济大学,获博士学位。2004-2007年就职于合肥工业大学,2018年至今工作于上海应用技术大学。研究方向为生物信息学、离散事件系统,研究成果发表于IEEE Transactions on Automation Science and Engineering、Discrete Event Dynamic Systems、International Journal of Signal Processing, Image Processing and Pattern Recognition等国际主流杂志。

相关论文信息

相关研究发表在Cell Press细胞出版社旗下期刊Trends in Genetics,

▌论文标题:

A proposed metric set for evaluation of genome assembly quality

▌论文网址:

https://www.cell.com/trends/geneti-cs/fulltext/S0168-9525(22)00253-0

▌DOI:

https://doi.org/10.1016/j.tig.2022.10.005

阅读原文



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3