智能音乐创作产业现状与展望

您所在的位置：网站首页 › 歌曲谱曲图 › 智能音乐创作产业现状与展望

智能音乐创作产业现状与展望

2023-05-11 10:30| 来源: 网络整理| 查看: 265

0 分享至

用微信扫码二维码

分享至好友和朋友圈

自动、稳定、高效地产出高质量音乐作品，不仅是众多头部媒体公司、创业公司抢占市场先机的必备条件，也是学术研究团队不断探索的目标。本次专题洞察围绕智能音乐创作领域的产业现状，介绍部分产品内容，并讨论该领域的未来发展机遇。

产业现状

AI音乐创作打破了作曲家进行音乐创作的固定模式，带动整个音乐产业的快速发展，本小结介绍智能音乐创作领域具有代表性的企业案例。

网易

在“2020 网易未来大会”上，网易正式发布了由网易伏羲、网易雷火音频部提供作词、作曲、编曲、演唱等全链路AI 技术支持的歌曲《醒来》。这是网易首次完成AI完全生成的歌曲，从创作到演唱，整首歌曲从无到有仅需一小时。

作词方面，网易伏羲利用其自主研发的“有灵智能创作平台”，依托于网易游戏伏羲人工智能实验室较为成熟的语言处理技术，让AI学会人类语言组织的基本逻辑。再借助大规模语料训练实现端到端的歌词生成，并通过自研的方法控制不同参数下的歌词创作。

图1. 《醒来》宣传海报

作曲方面，《醒来》采用雷火音频部自研的智能编曲引擎，从华语乐坛大量主流歌曲中识别大众审美偏好，在15-30秒内生成一首出版级编曲。而相同质量的人工编曲，市场价格在1-1.5万元左右。网易已具备工业化大批量生产的能力。

歌唱合唱方面，《醒来》以雷火音频部提供的大量游戏配音应用案例及庞大的歌声资源为基础，网易伏羲借助神经网络声学模型和声码器自动根据曲谱，实时生成契合歌曲主题且“几可乱真”的歌声，并确保“主唱”在不同BGM、风格歌谱上音高、节奏的稳定性。下面是《醒来》的歌曲内容，几乎无法直接感觉出是AI歌唱。

腾讯

2020年6月1日，腾讯AI虚拟歌手艾灵亮相，领唱中国新儿歌。青年演员歌手王俊凯与雄安孩子，以及腾讯AI数字人艾灵共同演绎的新歌《点亮》。这份礼物以特别的方式呈现：在H5互动里，每个人都可以轻松召唤艾灵，创作你的专属MV。给几个关键词，艾灵就能为你创作专属歌词，并和王俊凯一起唱给你听。在互动中，AI数字人艾灵不仅能作词，还能用近乎真人的声线演唱。

图2. 艾灵技术流程

作词方面，AI艾灵的歌词生成方案基于腾讯 AI Lab 最新研发的歌词创作模型SongNet。该深度学习模型最大的特点就是可以给定任意格式和模板来生成相契合的文本。在上述的H5里面，AI艾灵的“命题作词”技能就来源于此。生成的歌词然后会被提交给歌声合成模块，再融合对应的背景音乐，最终生成悦耳动听的歌曲。

歌曲合成方面，AI艾灵的歌声即来源于这样的 AI 技术。首先，研究者以音素为基本发音单元将任意歌曲描述为一连串音素的序列；然后通过分析歌谱，从文字、旋律、节奏等多个维度分别提取和预测词曲中每个音素的发音、时长、停顿、音高、风格和演唱技巧等特征；最后使用由真人（中国网络声优龟娘）演唱的歌声训练得到的深度神经网络声学模型和声码器模型，合成出与真人声线高度相似歌声音频。不同于“初音未来”等虚拟歌姬的“机器合成 + 人工调教”模式，使用了基于DurIAN声学模型的AI艾灵无需经过人工调教就能得到非常自然和拟真的歌声。

目前，艾灵已在B站开启了直播间，24小时直播歌唱和舞蹈。

图3. 腾讯AI艾灵形象

谷歌

2016年，Google旗下DeepMind实验室推出了WaveNet深度神经网络，用于“生成能够产生比现有技术更好、更逼真的，语音原始音频波形”。Google利用WaveNet技术，以英文/日文更新了Google Assistant的语音功能，可选择男性或女性。对于音乐生成，跟语音的合成是类似的。WaveNet是一个端到端的TTS（text to speech）的生成模型，声音元素是一个点一个点生成的。WaveNet也是技术人员探索语音合成和音乐创作需要了解的一个重要的深度学习模型。

此外，MAGENTA是谷歌旗下一个开源研究项目，基于tensorflow，探讨机器学习在创作过程中作为工具的作用。Magenta 在学术界和艺术圈都颇为知名，他们发表了许多学术文章，同时也为那些熟悉代码的音乐家们提供丰富的开源资源，提供了Magenta Studio并开源，主要针对作曲领域，未提供作词和歌曲合成。Magenta Studio是Ableton Live(一款有名的音乐制作软件)的MIDI插件。它包含5个工具：Continue，Groove，Generate，Drumify和Interpolate，可用于将Magenta模型应用于MIDI文件。

图4. Magenta Studio工具套装

其中，五种工具的应用场景如下：

1. Continue：使用循环神经网络（RNN）的预测能力来生成可能跟随您的鼓拍或旋律的音符。给它一个输入MIDI文件，它最多可以扩展32个小节。这有助于增加鼓点的变化或为旋律音轨创建新素材。可以通过提高随机度来产生更多的随机输出；

2. Generate：类似于Continue，但是它生成一个4小节的短旋律，而无需输入；使用时选择输出文件夹，变化数量，随机度，然后单击生成。这有助于打破创意障碍或作为原始样本的灵感来源；

3. Groove：可调节输入MIDI文件中的鼓点时间和速度，以产生鼓手演奏的“感觉”。这类似于“人性化”插件所做的事情，但是以完全不同的方式实现；

4. Drumify：根据任何输入的节奏创建鼓点。它可用于生成与贝斯琴线或旋律相关的鼓伴奏，或根据拍打的节奏来创建鼓音轨。它与执行的输入效果最佳，但也可以处理量化的片段；

5. Interpolate：这个产品是把两段旋律或者鼓点作为输入，然后合并成一段新的旋律。例如可以将Generate产生的两段旋律作为输入，得到合成后的新旋律。这两段旋律的时长应该是一致的，并且不大于4个小节。Interpolate还使用类似于Generate的变体自动编码器（VAE）。VAE一种实现方法是从MIDI到压缩空间的映射，在压缩空间中类似的音乐模式聚集在一起。

Magenta除了针对智能作曲的开源项目外，还有针对前端展示、二次开发的Demo教程等，方便其他厂商使用。

小冰

小冰旨在打造前沿的中文自然语言处理技术和中文AI虚拟人物。小冰最初定位为闲聊机器人，主要形象是一款聊天机器人，基于大数据、自然语义分析、机器学习和深度神经网络的技术，可以根据用户的回复自动对话。后续逐步增加了语音聊天、唱歌等技能，是一个比较有影响力的针对中文场景的AI虚拟形象。

2020年中旬，小冰因业务变动从微软分拆后独立运营，目前的小冰，不仅可以对话，也能够实现写诗、写新闻、唱歌、画画等功能，逐步发展成为融合了自然语言处理、计算机语音和计算机视觉等技术的完备的人工智能底层框架，支持AI托管小编、虚拟亲友、AI主播、虚拟歌手和颜值替身等场景。

图5. 小冰技能包

音乐智能创作是小冰人工智能底层框架的一个重要分支，目前提供了X Studio工具包，为音乐创作者们提供具有不同音色和唱腔的虚拟歌手。虚拟歌手能迅速读懂乐谱，并像人类歌手一样，自然地演唱出来，目前已经支持四位不同风格的虚拟歌手（如下图所示），并在不断研发新的歌手类型。X Studio目前没有在作词和作曲方面提供智能生产工具，但提供了歌曲合成的功能。

图6. 小冰公司提供的四种风格虚拟歌手

在歌曲合成方面，小冰以歌词和曲谱作为输入，自动生成对应歌手风格的演唱版本，并提供工具进行人工微调。具体工作窗口示意图如下所示。

图7. 虚拟歌手歌唱工作面板示意图

X Studio将歌词和曲谱（MIDI文件）按格式作为输入，在云端便可以自动合成歌手演唱版的歌曲。其中，歌词文件可以通过标点符号等标识，调整歌唱技巧，例如通过’-’符号可以模拟转音等。X Studio还提供了微调工具，可以调整断句间的呼吸、换气、声带收紧等效果。

下面是小冰歌唱的示例片段。

英伟达 AIVA

AIVA主要提供人工智能创作情感配乐，是最早商用的AI配乐生成软件之一。AIVA目前提供了智能作曲的功能，并且得到了业界的一致好评。无论用户是独立游戏开发人员，音乐新手还是经验丰富的专业作曲家，AIVA都会在创作过程中提供帮助。利用AI生成的音乐，以前所未有的速度，基于用户的风格挑选（乡村、城市等风格），为用户创建引人入胜的曲目。

AIVA的发明者PierreBarreau是一个法国计算机科学家，碰巧他也是个音乐作曲家。有天他看了科幻爱情片《她》（Her），影片中的AI创作了一首音乐，受此启发他决定创造一个能够谱曲的AI。Pierre在一个艺术家家庭长大，大学时攻读计算机科学，但是他对计算机和音乐两个领域都充满了浓厚的兴趣，因此他觉得让AI去创作音乐是一件自己一定要做的事情。

组建好团队后，Pierre于2016年2月正式发布了AIVA，并且创作了首个钢琴独奏曲。受此鼓舞，Pierre随后让AI尝试创作更多类型的曲子。2016年7月14日，为了庆祝法国国庆节，AIVA创作出了出现以来数量最多的曲子，这些曲子全都饱含深情，或壮烈或悲怆。这些曲子最后合并为一张专辑，叫做《创世纪》（Genesis）。

2020年AIVA还受到了网易云音乐的战略投资，双方将结合最先进的人工智能技术在AI辅助音乐创作领域展开深度合作。目前，AIVA以会员包月的方式提供服务。AIVA一开始就把AI作曲作为了发展方向，目前已经在许多场合播放了由AI生成的乐曲，包括了时长达数小时的交响乐。

下面感受一下AIVA作曲的效果。

Ecrett Music

相比前述部分头部企业，Ecrett Music算是近年来的后起之秀，可专门为视频生成特定的音乐和音轨。用户只要通过普通的Web浏览器使用网站，选择不同的场景类型、乐曲心情和音乐长度，即可产生对应的曲调音乐，操作十分简单。

图8. Ecrett Music工作面板示意图

用户对作曲的需求，一般是要为自己的视频内容配背景音乐，因此，Ecrett Music允许用户上传自己的视频来预览音乐和画面之间的效果是否和谐,并可以进一步编辑视频的结构组成，以便更好的适应自己的视频，并改变低音，鼓点，旋律和背景节奏等，完全不需要用户具备乐理知识。

下面欣赏一下Ecrett Music自动创作的“Fashion + Sad + Cinematic”风格的背景乐曲。

企业对比

上述企业能力对比如下表所示。

表1. 企业能力对比

机遇与挑战

发展机遇

随着原创短视频、长视频及相关行业的发展，配乐成为了内容出彩的一个重要环节。许多拍摄内容本身可能平淡无奇，但是当配对了BGM时，会让整个作品拥有完全不同的灵魂。因此，短视频内容要快速生产，同时又能达到病毒式传播的效果，快速的乐曲制作生产能力必不可缺。相比人工创作，AI能够秒级创作相关主题的乐曲内容，有着得天独厚的优势。因此，AI作曲在当前短视频时代中有着重要作用。

当前，AI算法的训练基于人类创作，但是乐曲本身除了耳熟能详的旋律外，打破常规、另辟新径是AI创作的优势，能够产生天马行空的新曲调。虽然一时可能无法被广泛接受，但AI创作的高量产让创作成本大大降低。

此外，虚拟形象也在短视频时代收获了大量粉丝，许多虚拟形象都能够唱跳结合。AI能够在内容制作时打造形象、创作、演唱都自动生成的完全虚拟化偶像，辅助企业打造属于自己专属的虚拟代言偶像，迎合当前虚拟偶像产业的发展。

挑战

当前智能创作领域的技术发展已经达到了可商用的级别，但是，智能创作更大的挑战，除了技术层面需要更加真实、富有情感之外，还有大众的认可程度，以及传统音乐行业的竞争。乐曲创作作为一门艺术，往往代表着创作者的创作心境，并让听众能够沉浸在乐曲带来的意境中。而AI创作，即使能够得到好听的旋律，但因缺少了人类创作时的历史背景，总让大众难以短时间接受。例如，作者在经历人生低谷时创作的乐曲，即使AI能够创作出同样好听的曲谱，但少了人物故事的加持，在鼓舞大众和艺术层面总无法达到相应的高度。

此外，版权如何界定也是需要探讨的问题。类似Ecrett Music这样的初创公司，使用相对简单的方式，以包月付费的形式收费，版权则直接交给使用方。

小结

随着人工智能行业的持续发展，音乐行业对于人工智能的接纳度也越来越高。未来需要给人工智能在音乐创作中的角色准确定位，打造作曲家与人工智能合作的环境，引导观众对AI音乐的正确理解。

笔者相信，人工智能始终诞生于人类之手，会发挥其辅助价值，能够更好地促进音乐质量的提升，帮助音乐行业前进与发展。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/ 返回网易首页下载网易新闻客户端

【本文地址】

智能音乐创作产业现状与展望

智能音乐创作产业现状与展望

今日新闻

推荐新闻