[论文翻译]百万年前的猛犸象DNA阐明其基因历史

您所在的位置:网站首页 猛犸象进化了吗 [论文翻译]百万年前的猛犸象DNA阐明其基因历史

[论文翻译]百万年前的猛犸象DNA阐明其基因历史

2024-05-22 05:22| 来源: 网络整理| 查看: 265

本文是对Nature2021年2月7日一篇论文的娱乐性质地翻译,原文标题为Million-year-old DNA sheds light on the genomic history of mammoths[1]。

最开始以为这是第一篇对猛犸象基因组进行测序的文章,但看完后发现文章中猛犸象的测序结果并不完整,只有一些片段。但有点惊喜的是,依照文章的意思,猛犸象基因组的测序之前已经有很多文章做过了,较年轻种类的猛犸象完整的基因组数据应该是有的。

我觉得很多人应该和我有一样的想法,就是有了基因序列能否复原猛犸象。在翻译的时候顺便对合成生物学稍微了解了一下,目前合成基因最大的工程是合成酿酒酵母菌的全染色体[2],从基因组长度上看,这应该也是目前合成生物学的极限。所以说,要合成猛犸象全基因组应该还是比较困难的,但合成几百bp的小片段应该不成问题。

娱乐性质地规划了一下这个项目,首先是合成几百bp的小片段,然后可以分两条路线继续尝试。一是尝试将小片段转导进现代大象的生殖细胞中,看看能否表达出一些猛犸象的形状,如果可以的话逐渐添加转导的小片段的数量,最后获得一个近似猛犸象的物种。或者尝试能否合成猛犸象的一条甚至多条染色体,最后合成猛犸象的整个基因组出来。

我觉得两后面条路线应该都不太可行,但即使只能合成小片段,那也是挺有意思的事情。脑洞的时候顺便把这个To Do在Github上开源了,名字就叫Relive_mammoths,如果以后真的有资源去尝试这件事情的话,获得的成果应该会继续发在那上面。

参考:

[1] van der Valk, T., Pečnerová, P., Díez-del-Molino, D. et al. Million-year-old DNA sheds light on the genomic history of mammoths. Nature 591, 265–269 (2021). https://doi.org/10.1038/s41586-021-03224-9

[2] Richardson SM, Mitchell LA, Stracquadanio G, Yang K, Dymond JS, DiCarlo JE, Lee D, Huang CL, Chandrasegaran S, Cai Y, Boeke JD, Bader JS. Design of a synthetic yeast genome. Science. 2017 Mar 10;355(6329):1040-1044. doi: 10.1126/science.aaf4557. PMID: 28280199.

百万年前的猛犸象DNA阐明其基因历史摘要

基因组数据在研究进化(例如物种形成)方面具有巨大的潜力。但在许多情况下,需要早更新世亚时代(Early Pleistocene subepoch)的基因组时间序列(genomic time series)样本,才能研究跨物种形成事件。尽管理论上DNA可以保存那么长时间,但目前回收到的最古老的基因组数据,来自78-56万年前的马标本。本文报告了从三个猛犸象标本中恢复的全基因组数据,这些标本可能诞生自早期和中期更新世亚纪,其中两个有超过一百万年的历史。我们发现在更新世早期,东西伯利亚存在两个不同的猛犸象家系。其中一个家系演化出了长毛猛犸象,而另一个则代表了某个以前未被认出的家系,它是最早一批定居北美的猛犸象的祖先。分析表明,北美的猛犸象起源于这两个家系在中更新世的杂交,且混合比例大致相等。最后我们认为,长毛猛犸象对冷适应有关的大多数蛋白质编码变异,在一百万年前已经存在。这些发现展现了远古古基因组学的潜力,它可以提高我们对物种形成和长期适应性进化的理解。

正文

从数千年前的标本中恢复的基因组数据,使我们对史前种群动态变化,古代基因交换事件,和灭绝物种的种群数量有了更深入的了解。但是,在通常认为的古代DNA研究范围的时间尺度之外,也有一些进化过程发生。例如当今许多哺乳动物和鸟类物种,就起源于更新世早期和中期。因此,对它们的物种形成过程进行古基因组学研究,就需要从至少几十万年前的标本中回收远古DNA。

猛犸象(Mammuthus sp.)出现在大约五百万年前的非洲,随后在北半球的大部分地区定居。在更新世时期(260万年到1.17万年前),猛犸象家系不断演化,产生了南方猛犸象(Mammuthus meridionalis)和草原猛犸象(Mammuthus trogontherii),它们后来形成了哥伦比亚猛犸象(Mammuthus columbi)和长毛猛犸象(Mammuthus primigenius)。尽管这些类群之间的确切关系尚不明晰,但普遍看法认为,哥伦比亚猛犸象是大约150万年前,在北美定居早期演化形成的,而长毛猛犸是最早70万年前出现在西伯利亚东北部。类似于草原猛犸象的一部分(一般认为是同种的),至少在170万年前左右就居住于欧亚大陆,它的最后一个种群大约在20万年前灭绝于欧洲。 

我们从三个猛犸象臼齿中恢复了一些基因组数据,这些牙齿来自东北西伯利亚,而且时间可以追溯到早中期更新世,这些数据被用于研究长毛猛犸象和哥伦比亚猛犸象的起源及演化。臼齿来自于东北西伯利亚的奥利奥里岩层,这些岩层有大量的记录和化石,并且通过啮齿动物生物地层学(rodent biostratigraphy)进行了年代的断定,该地层被认为与全球磁极的逆转和东白令海峡地区的某一生物群有强关联。其中一个标本(我们根据发现地点称它为“Krestovka”)从形态学上和草原猛犸象(最初认为是中更新世在欧洲的一个物种)相似,这个标本在有120-110万年历史的底部奥利奥里(Lower Olyorian)沉积物中被收集到。第二个标本(叫做“Adycha”)也具有和草原猛犸象类似的形态,它处在一个年龄不确切的奥利奥里地层中(120-50万年前)。但是Adycha标本的形态强烈表明它诞生于奥利奥里早期,并很有可能是在120-100万年前。第三个标本(称作“Chukochya”)有一个和早期长毛猛犸象一致的形态,而且是在一个只有顶部奥利奥里(Upper Olyorian)沉积物会出现的断层中被发现,这意味着它诞生于80-50万年前。

a,研究中分析的猛犸象基因组的来源地。b,基于成对基因距离在FASTME上构建的系统发育树。使用所有核基因位点和100个重复采样的副本(每个副本使用了100000个位点),假设了均衡的最小进化。c,贝叶斯分析重构的线粒体发育树,它的分子钟使用古代样本的有限碳辐射数据来校准,并且假设非洲草原象(不在发育树上)和平均530万年前的猛犸象之间的先验差异符合对数正态模型。蓝条表示95%的最大后验密度。圈出来的是新测序的基因组的位置。d,基于和非洲草原象(L.africana)的常染色体差异估计的Adycha和Chukochya的年龄的概率密度,由于测试区块随机性产生的误差,Krestovka和Adycha基因组中一些区域的年龄估计值比Wrangel猛犸象的一些基因区域更加年轻。e,基于线粒体基因组估计的Krestovka,Adycha和Chukochya的年龄的概率密度,由被贝叶斯线粒体重构推断而来。

我们借助用于复原高度降解的DNA片段的技术,从三个臼齿中提取DNA,将其转化为文库,然后在Illumina平台上进行测序。我们依照非洲草原象(Loxodonta africana)的基因组(“LoxAfr4”)和亚洲象(Elephas maximus)的线粒体基因组,合并了测序片段并绘制了它们在染色体上的位置。我们发现从早中期更新世标本中复原的DNA非常碎片化,而且比起那些从永冻土里的,后更新世时期的标本中提取的DNA,拥有更高水平的胞嘧啶脱氨基化(UP:今天上的分子生物里刚提到过胞嘧啶脱氨基,它会让胞嘧啶转变成尿嘧啶,可能会对测序的结果产生干扰)。为了避免产生错误,我们采用保守的筛选策略,和一个可以反复进行的,用以最大程度减少短测序片段在基因组上的错误映射的方法。这种方法让我们能够从三个标本复原一个完整的线粒体基因组(覆盖率超过37倍),并且从Krestovka,Adycha和Chukochya三个标本中分别获得0.49亿,8.84亿和36.71亿碱基对长度的核基因组数据(UP:原来不是完整的猛犸象基因组啊,,,翻译到这里还是蛮失望的,本来还想有完整的猛犸象基因组的话,能不能复原出一头来。不过Chukochya标本有36.71亿bp的话,序列数据应该挺完整了,再对照现代大象补充缺失片段,还是有机会的)。

基于DNA估计年龄

为了使用线粒体基因组数据来估计标本年龄,我们进行了贝叶斯分子钟(Bayesian molecular clock)分析,并使用具有有限碳同位素年龄(finite radiocarbon dates)和对数正态(log-normal prior)的一个样本来校对。我们认为,在530万年前,非洲草原象和猛犸象家系之间出现了一个基因组上分差异(根校准root calibration)。基于以上分析,我们估计Krestovka,Adycha和Chukochya这些标本分别诞生自165万年(95%最大后验密度,208-125万年),134百万年(169-106万年)和87万年前(107-68万年)。通过估计猛犸象和非洲草原象的最近祖先衍生变化(derived changes)的数量,我们还使用常染色体基因组数据来推断覆盖率较高的Adycha和Chukochya标本的年龄。该方法假设了一个恒定的突变速率,然后计算衍生变体(derived variants)在时间尺度上的累计数目。该分析方法表明,Adycha和Chukochya标本分别诞生自128万年(95%置信区间,164-92万年)和62万年(95%置信区间,100-24万年)前。需要注意的是,这种方法使用的是低覆盖水平数据,而且置信区间很宽,但和用线粒体基因数据估计得到的结论相似。

基于DNA对Chukochya和Adycha标本估计的年龄,和地质年龄的推论一致,这两种方法分别来自生物地层学和古地磁学,而用于Krestovka的分子钟方法,它给出的年龄比生物地层学更古老。这意味着Krestovka曾作用于一个更加古老的地质沉积层中,或者就是低估了线粒体钟的比率(UP:意思应该是要么Krestovka很古老,要么他们算错了)。然而,用基因和地质学对Krestovka年龄估计的置信区间,相差仅5万年,而且所有的估计结果都远超一百万年(UP:然后他们说自己应该没算错)。

猛犸象家系间的一个基因分化

研究的一部分是构建一个基于常染色体数据的系统发育树,并借此发现三个中早更新世时期的猛犸样本,不位于晚更新世所有欧亚猛犸象(其中包括来自欧洲(苏格兰,4.8万年前)和西伯利亚(坎恰兰,2.4万年前)的两只长毛猛犸象)基因组多样性范围内(UP:这是不是意味着还有两头猛犸象之前就被测过序?所以而且那两头没那么古老,保存下来的DNA质量应该更高)。Adycha和Chukochya在系统发育树上的位置,和它们来自晚更新世猛犸象的直系祖先族群这一结论一致,而Krestovka在哥伦比亚猛犸象和长毛猛犸象分化之前也已经独立了出来。同样,对包含了168个晚更新世猛犸象标本进行贝叶斯分析重构的线粒体系统发育树,也将Krestovka和Adycha放在了之前发表的猛犸象的根部,而中更新世的Chukochya是之前描述的晚更新世猛犸象的三个分支中其中一支的起源。

基于全基因组和线粒体数据的对基因序列分化时间的估计表明,Krestovka和本研究分析的其他猛犸象之间存在很大的差异。我们估计Krestovka的线粒体基因组对于其他猛犸象线粒体基因组的分化,产生在在266到178万年前(95%最大后验密度)。我们从常染色体数据中获得了相似的分化时间的估计值(在265到196万年之间,95%置信区间),但值得注意的是,这个分析是基于有限的基因组数据。此外,使用F(A/B)统计(F(A/B) statistics)估计的相对分化表明,在和长毛猛犸象高度重复的的杂合位点,Krestovka核基因组携带的等位基因比其他猛犸象少。这为Krestovka家系的分化产生于亚洲象之后,本研究的其他猛犸象之前这一假设,提供了有力的支持。

总之,这些研究表明,在早更新世的后期,有两个猛犸象演化上的家系(指两个独立存在过一段时间的族群)存在于东西伯利亚。其中Krestovka代表的家系,在北美的第一只猛犸象出现之前就和其他猛犸象分离了开来。另一支家系包括Adycha以及所有中后更新世的长毛猛犸象。

哥伦比亚猛犸象的起源

有证据表明,相比较其他猛犸象,哥伦比亚猛犸象更可能起源于Krestovka家系。我们使用D统计(D statistics)进行分析,有迹象显示在哥伦比亚猛犸象和Krestovka之间存在过量的等位基因的共享。这与Krestovka在系统进化树上的平均位置,在所有猛犸象的基部的情况相矛盾。因为如果后来没有过杂交的话,D统计结果会是0。我们使用TreeMix对这种情况进行了更深入的研究。如果不考虑迁徙事件,没有一个模型能拟合数据(残差>10×s.e.)。然而,如果考虑一次迁徙事件,我们就能得到一个好拟合(杂交比例=42%,残差<2×s.e.),这意味有一部分哥伦比亚猛犸象的祖先是来自Krestovka家系的。

a,D统计结果,其中每个点代表一个长毛猛犸象和有图中的两个基因组之间的比对,并使用乳齿象(mastodon,Mammut americanum)作为外群(outgroup)来遍历所有可能的样本组合。在任何猛犸象和参考对象(非洲草原象)之间都没有过高的等位基因共享被观察到,这说明在早中期更新世的猛犸象基因组之间没有显著的参考偏差。可以看到哥伦比亚猛犸象和Krestovka之间有一个强关联,北美长毛猛犸象(怀俄明州的)和哥伦比亚猛犸象之间也有这样的关系。P. antiquus这个缩写代表直齿象(Palaeoloxodon antiquus),Mammuthus sp.指的是本文中的所有猛犸象标本。b,对一次杂交事件拟合最好的杂交图模型,显示哥伦比亚猛犸象起源自杂交。c,基于目前可获得的基因组数据假设的,猛犸象在过去三百万年间的进化历史。棕色的点表示猛犸象标本来自哪个研究分析的基因组数据。误差线代表基于线粒体基因组得到的年龄估计值的95%最大后验密度区间,它们从三个早中期更新世标本中获得。箭头代表从常染色体基因组数据中鉴定出来的基因流动事件。欧洲草原猛犸象(M. trogontherii)幸存到了中更新世的最后阶段,因此我们推测它很有可能在一百万年前从和长毛猛犸象共同祖先中分化了出来。

为了更深入评估Krestovka家系在猛犸象种群历史中的演化内容,我们使用两个互补的杂交图谱模型。测试了三个远古个体和西伯利亚长毛猛犸象,哥伦比亚猛犸象以及亚洲象之间所有可能的,在系统发育树上的组合。我们将亚洲象作为无关组,为了限制基因型的干扰,组中只包括六头非洲象中的多态性位点。没有杂交事件的图模型无法拟合数据,因此可以排除简单的树形种群历史。相反,有一个杂交事件的图模型有一个完美的拟合,在没有很大的离群值的情况下解释了所有的f4-statistic组合(UP:f4-statistic combination,不是很懂是什么意思,应该是某种统计手段得到的值)。基于从两个混合图模型方法中得到的点估计值,我们推测哥伦比亚猛犸象诞生自一次杂交事件,其中38-43%的血统来自Krestovka相关家系,另外57-62%来自长毛猛犸象家系。

为了从未知的资源(即幽灵杂交ghost admixture)中识别杂合基因的区域,我们使用了一个隐马尔可夫模型,并且得到了关于哥伦比亚猛犸象杂合祖先的额外证据。这项不包括早中期更新世标本的研究表明,大约41%的哥伦比亚猛犸象基因组,来自一个遗传上不同于长毛猛犸象的家系。然后,我们为幽灵杂交的基因组区域构建了成对距离的系统发育树(pairwise-distance phylogenetic trees),并且发现它们和Krestovka基因组密切相关。如果把这些区域去除,哥伦比亚猛犸象基因组的剩余部分将会归入晚更新世长毛猛犸象的多样性之中。

最后,我们的D统计分析还鉴别出在哥伦比亚猛犸象和一只怀俄明州(Wyoming)的长毛猛犸象之间,有高水平的等位基因共享。基于f4的比率,我们估计这些基因组之间,有10.7-12.7%的共同血统,这和之前的研究结果一致。因为哥伦比亚猛犸象携带了高比例的Krestovka血统,所以如果有从哥伦比亚猛犸象到北美长毛猛犸象的基因流动,会导致Krestovka和怀俄明州长毛猛犸象之间共享较高比例的等位基因。但我们发现,Krestovka和所有测过序的长毛猛犸象(包括怀俄明州的那只)之间都没有过量的等位基因共享,这说明基因流动的第二阶段可能是单向的,它只能从长毛猛犸象流向哥伦比亚猛犸象。这意味着哥伦比亚猛犸象基因组的组成(正如D统计,杂交图模型和幽灵杂交分析阐明的)是两次杂交事件的结果,头一次事件中Krestovka家系贡献了大约50%,之后长毛猛犸象中的北美长毛猛犸象提供了另外大约12%的基因。

对猛犸象适应性进化的见解

经过一系列的适应性变化,长毛猛犸象成了一种耐寒,栖息地广阔的物种(UP:open-habitat specialist,habitat specialist是指一种依赖特定生境的物种,不知道open-habitat specialist是什么意思)。古代的基因组可能可以探究清楚这些适应性演化的时间。为此,我们确认了晚更新世长毛猛犸象携带的衍生等位基因(derived allele)和所有非洲草原象、亚洲象携带的祖先基因(n = 5598),在蛋白编码上的改变。在这些早中期更新世基因组的变体中,我们发现已经有85.2%(918中的782个)和88.7%(2906中的2578个)猛犸象特异的蛋白编码变异,分别出现在了Adycha和Chukochya的基因组中。此外,在测序过的早中晚期更新世基因组之间,我们没有发现共享的非同义位点和同义位点在比率上存在显著差异。因此,尽管在中更新世气候和猛犸象的形态都出现了转变,但我们没有发现蛋白质编码变异率有任何显著的变化。

过去的研究已经确定了一些特定的基因变异,这些变异奠定了猛犸象对于北极圈环境一整套的适应能力。对于这些变种(n=91),我们分析了Adycha和Chukochya是否拥有那些在晚更新世长毛猛犸象中观察到的氨基酸变异。我们发现在那些可能参与毛发生长、昼夜节律、热感知和白色及棕色脂肪积累的基因中,绝大多数的编码变异在Adycha和Chukochya的基因组中都有出现(87%和89%)。这说明西伯利亚草原猛犸象类似的猛犸象(就是Adycha),已经发展出了长长的毛发,以从生理上适应寒冷、高纬度环境。然而,在一个被深入研究的长毛猛犸象基因中(TRPV3,编码一个温度敏感的瞬时受体通道,该通道可能参与温度感知,毛发生长),只有四分之二的晚更新世长毛猛犸象的氨基酸变化,出现在了早期长毛猛犸象(Chukochya)的基因组中。这说明这个基因中的非同义变异,只出现了几百或者几千年,而不是在一小段短暂的适应进化中出现的。

讨论

我们的基因组研究表明,哥伦比亚猛犸象是一次长毛猛犸象和Krestovka家系杂交的产物,而Krestovka家系是一个以前没有被注意到的古老的猛犸象血统。得到的结果显示,哥伦比亚猛犸象的起源构成了一个物种杂交事件,而两个家系最初都为这次杂交贡献了大约一半的基因组。这次杂交事件,似乎没有给北美族群臼齿的平均形态带来任何改变,但是解释了哥伦比亚猛犸象线粒体基因组和核基因组的冲突,比如已知的哥伦比亚猛犸象的线粒体基因组是包含在长毛猛犸象线粒体基因组多样性之中的。基于线粒体基因组的构建的系统发育树表明,晚更新世哥伦比亚猛犸象最近的共同雌性祖先,生活在大约42万年前(95%最大后验密度,51.1-38.8万年),这可能是这个杂交事件发生的最短时间。因为猛犸象在150万年前就已经出现在了北美,这些结果说明在杂交事件之前,北美的猛犸象都归属于Krestovka家系。结合Krestovka标本的形态,这验证了一个之前提出的模型,即最早的北美猛犸象源自类似于M.trogontherii的欧亚祖先,而不是起源于向北美扩张的南方猛犸象(M.meridionalis)。

我们的发现说明,基因组数据可以从早更新世标本中恢复,这为研究跨物种事件的适应性进化的提供了可能。这里提出的猛犸象基因组,仅仅只是对这种潜力小小的挖掘。尽管从类似于M.trogontherii(Adycha)的猛犸象到长毛猛犸象(Chukochya)的转变代表了一个臼齿形态上的重要变化,但我们没有在这段时期中,观察到全基因组选择的比率有增长。此外,很多晚更新世猛犸象的关键适应,已经出现在了早更新世Adycha的基因组中。因此,我们认为没有证据支持,与长毛猛犸象的起源有关的适应性进化的速率在增长。这也与之前的工作结果一致,之前的结果显示,猛犸象栖息地和形态学上主要的转变发生得更加早,在M.meridionalis和M.trogontherii猛犸象之间。

从一百多万年前的DNA中恢复的数据,证实了之前的理论预测,即古代基因的记录可以超出之前展示的范围。我们预测,早中期更新世基因组的复原和分析,将进一步提高我们对于进化性改变和物种形成中复杂本质的理解。我们的结果凸显了永冻环境对于延长DNA复原时限的价值,也揭开了远古DNA深层研究的新篇章,其中高纬度标本将发挥重要作用。

补充

感谢谷歌翻译,有道词典,百度。

另外文章还有很多附加信息,实验方法等等东西没翻译,头一次翻译这种英文文献,太多了,累,有兴趣可以直接去看原文。这篇文章猛犸象的测序数据可以从https://www.ebi.ac.uk/ena/browser/text-search?query=PRJEB42269这个数据库中获得。

翻译中遇到了很多陌生的概念,自己随便瞎翻译了一下,看着乐呵就行。因此可能有很多错误,真要了解这篇文献的话千万不要以本文为准,如有差错,就有差错。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3