使用 TensorFlow 2.0 实现深度音频降噪

您所在的位置:网站首页 视频声音除噪怎么设置方法教程图片 使用 TensorFlow 2.0 实现深度音频降噪

使用 TensorFlow 2.0 实现深度音频降噪

2024-07-13 03:34| 来源: 网络整理| 查看: 265

原文链接

How To Build a Deep Audio De-Noiser Using TensorFlow 2.0

Practical deep learning audio de-noising

001

Introduction

语音去噪是一个长期存在的问题。给定一个嘈杂的输入信号,目标是在不降低感兴趣的信号的情况下过滤掉这些噪音。你可以想象这样一种场景,一个人在视频会议中说话,而背景中正在播放一段音乐。在这种情况下,语音去噪系统的工作是去除背景噪音,以改善语音信号。除了许多其他用例外,这种应用对于视频和音频会议尤其重要,因为噪音会大大降低语音的清晰度。

语音去噪的经典解决方案通常采用生成式建模(Generative modeling)。在这里,像高斯混合(Gaussian Mixtures)这样的统计方法估计感兴趣的噪声,然后恢复去除噪声的信号。然而,最近的发展表明,在有数据的情况下,深度学习往往优于这些解决方案。

在这篇文章中,我们使用卷积神经网络(CNNs: Convolutional Neural Networks)解决了语音去噪的问题。给定一个嘈杂的输入信号,我们的目标是建立一个统计模型,可以提取干净的信号(源)并将其返回给用户。在这里,我们专注于从城市街道环境中常见的十种不同类型的噪声中分离出常规语音信号的源。

Datasets

对于语音去噪的问题,我们使用了两个流行的公开可用的音频数据集。

The Mozilla Common Voice (MCV)The UrbanSound8K dataset

正如Mozilla在MCV网站上所说:

Common Voice是Mozilla的一项倡议,旨在帮助教导机器真正的人类是如何讲话。

该数据集包含多达2454个录制小时,分布在简短的MP3文件中。该项目是开源的,任何人都可以在上面进行合作。在这里,我们使用了数据的英语部分,其中包含了30GB的780个有效小时的语音。这个数据集的一个非常好的特点是说话者的巨大差异性。它包含了来自不同年龄和口音的男性和女性的录音。

UrbanSound8K 数据集也包含小段的声音(



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3