AI换声，只需5秒音源，这个网络就能实时“克隆”你的声音

您所在的位置：网站首页 › ai模拟声音 › AI换声，只需5秒音源，这个网络就能实时“克隆”你的声音

AI换声，只需5秒音源，这个网络就能实时“克隆”你的声音

2024-01-03 21:34| 来源: 网络整理| 查看: 265

本文中，Google 团队提出了一种文本语音合成（text to speech）神经系统，能通过少量样本学习到多个不同说话者（speaker）的语音特征，并合成他们的讲话音频。此外，对于训练时网络没有接触过的说话者，也能在不重新训练的情况下，仅通过未知说话者数秒的音频来合成其讲话音频，即网络具有零样本学习能力。

目前，已经有人将该论文实现并在 GitHub 上发布了开源项目，目前该项目标星超 9.5k，fork 数是 1.5k。

AI 换声 GitHub代码：

https://github.com/CorentinJ/Real-Time-Voice-Cloning?utm_source=mybridge&utm_medium=blog&utm_campaign=read_more

简介

传统的自然语音合成系统在训练时需要大量的高质量样本，通常对每个说话者，都需要成百上千分钟的训练数据，这使得模型通常不具有普适性，不能大规模应用到复杂环境（有许多不同的说话者）。而这些网络都是将语音建模和语音合成两个过程混合在一起。本文工作首先将这两个过程分开，通过第一个语音特征编码网络（encoder）建模说话者的语音特征，接着通过第二个高质量的TTS网络完成特征到语音的转换。

两个网络可以分别在不同的数据集上训练，因此对训练数据的需求量大大降低。对于特征编码网络

【本文地址】

AI换声，只需5秒音源，这个网络就能实时“克隆”你的声音

AI换声，只需5秒音源，这个网络就能实时“克隆”你的声音

今日新闻

推荐新闻