“声音”背后的原理(1):波(横波、纵波、声波)、声音的采集、声音的储存

您所在的位置:网站首页 机械横波的特点 “声音”背后的原理(1):波(横波、纵波、声波)、声音的采集、声音的储存

“声音”背后的原理(1):波(横波、纵波、声波)、声音的采集、声音的储存

2024-07-05 14:45| 来源: 网络整理| 查看: 265

文章目录 1. 声音1.1 声音和波1.2 声音的产生:空气震动1.3 声音的储存:采样、量化和编码 2. 声音的识别

1. 声音 1.1 声音和波

声音是振动产生的声波,通过介质(气体、固体、液体)传播并能被人或动物听觉器官所感知的波动现象。 音频指人耳可以听到的声音频率在20Hz~20kHz之间的声波。

声音作为波的一种,频率和振幅就成了描述波的重要属性,频率的大小与我们通常所说的音高对应,而振幅影响声音的大小。声音总可以被分解为不同频率不同强度正弦波的叠加。这种变换(或分解)的过程,称为傅立叶变换。

声音属于机械波,其在空气中的传播属于纵波,即振动方向与传播方向一致。

(1)横波和纵波

回忆初中物理到知识:

横波的运动方向与传播方向垂直,而纵波的运动方向与传播方向一致。横波的质子上下运动(不是向前移动),向前传递的实质上是正在发生运动的质子的位置(或者说理解为”运动“越来越远)纵波的质子左右移动,从而推动周边的质子运动,因而发生运动的质子的位置也在发生着变化。

在这里插入图片描述

在这里插入图片描述 在这里插入图片描述

那么问题来了,为什么我们平时看到纵波(比如声波)的波形图好像跟横波是一样的(比如下图)?

在这里插入图片描述

(2)纵波的振动波动图

在这里插入图片描述

从图像中可以看出,(纵波)波形图的横坐标表示的发生振动的物体(也即固定的每个质子),而纵坐标表示的是质子在某个时刻距离其基准产生的位移!

也即,在某一时刻 t,横坐标表示的是发生振动的物体的各个质点,反正这里表示的并不是时间;而纵坐标表示的是每一个质子的位移。 在下一个时刻 t+1 ,其又会是另外一个波形:其横坐标并不会改变,发生变化的每个质子的位移量。

注意:一定要区分清楚波的“振动波动图”和“波形图”。 横波的“振动波动图”和“波形图”类似, 纵波的“振动波动图”(水平方向)和“波形图”(类似正弦曲线, 有上有下)则有差别。

振动图表示的是一个粒子随时间振动变化的图像 波形图表示N多粒子在平衡位置上下(就是坐标上一个个点在竖直上下)振动形成的波的图像

那么,问题来了,那些坐标横轴是时间的波形图(声波)是如何得来的?

(3)声波

找了好久,用两个动态图来表示声音的传播(借助空气分子的来回振动实现)以及在示波器上的表示(时域声波图)吧。

在这里插入图片描述 这张图值得注意的是,质子只是来回振动,并没有向前运动,与横波一样!

在这里插入图片描述

这里值得注意的是,声波图描述的是任意一个质子的运动?

1.2 声音的产生:空气震动

以扬声器的发声为示例,下图为动圈式扬声器的结构示意图。 在这里插入图片描述将线圈套在永久(固定)磁铁上,并通入电流,则线圈变为电磁铁; 改变电流的方向和大小,则电磁铁的极性和强度也随之改变,因而会与永久固定磁铁产生不同强度的吸引和排斥,所以会使得线圈在磁铁上往复运动; 线圈一般绑定在一个薄膜上面(这里是纸盆),线圈的移动便会带动薄膜推动它碰到的空气粒子,形成了一面“气墙”。实际上这一面面的 "气墙“也就是声音的本质,或者说声音的本质就是空气的震动。

(后续,这一面面气墙在碰到人的耳朵时,就会引起人耳骨膜的摆动,与骨膜相联系的神经细胞会对这种震动的频率和幅度产生反应,反应成大脑理解的声音) 在这里插入图片描述 而不同声音的种类是怎么决定出来的呢? 这个主要与声音的震动频率有关, 这个震动频率其实就是一面面气墙之间的间隔。人们说,女生的声音会尖一些,或者说,声音的频率高一些。 其实就是女生产生的气墙的间隔要比男生的窄。或者说,女生们的喇叭,对应的电磁铁震动的速度相对快些。术语上讲,就是女生声带的震动频率要高。

补充下,声学处理的难点之一:机器很难知道混合声音各个声音源的声音情况,它听到的就是一个混合在一起的声音。

在这里插入图片描述

1.3 声音的储存:采样、量化和编码

声音(空气震动)——>改变电容两端的物理间距——>电阻大小发生变化——>电压大小的变化——>记录形成“正弦波”

声音储存的本质也很简单,类似人耳的骨膜,计算机拾取声音的方法也是搞一个薄膜。 将薄膜作为电容的一端,当代表声音的气墙过来的时候,将会推动薄膜震动,从而有规律地改变它和电容另外一端的间距。因此,电容两端的电压也就会发生有规律的变化,然后经过一个模数转换器ADC(Analog to Digital Converter),将电压的变动幅度映射到一系列的数字上(比如4.3v-5v 对应 200 之类),最后声音就变成了时间轴上的数字。

可以看出来ADC转换器十分重要,其精度的好坏,直接决定了对声音的记录质量。

在这里插入图片描述有了声音的数字值之后,便是如何组织成数据文件的问题了。问题就化简为,已知一个整数数组,和一些约定,如何高效的存储成文件。

最简单的存储方式就是,原封不动的把数组存储下来。 这也就是asr领域常用的音频数据格式——pcm格式。这样,每隔一段时间探测一下电压值,然后转换为对应的数字,然后就存一下。 如仅下面的图。

在这里插入图片描述

在声音的储存过程中,有三个比较重要的概念,也是音频信号的三个重要参数:采样频率、量化位数和声道。

采样频率:每隔多长时间观测和记录一下电压值。 采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上,采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级

量化位数: 电压转换为数字的精细度。 用多少bit表达一次采样所采集的数据,通常有8bit、16bit、24bit和32bit等几种。(说大白话,就是数字取整的精度)

声道:用了几个麦克风在录,有单声道、双声道和多声道。

声道数:单声道、双声道和立体声 单声道一定不是立体声 双声道不一定是立体声 立体声一定一个以上的发生源,且有两个声道的波形相位不一样。

更多详细的细节可以查看后续文章:“声音”背后的原理(2):采样、量化和编码

2. 声音的识别

目前主流对人声的研究一般分为语音识别和声纹识别(说话人识别)。前者研究的是共性问题,判定所说的内容,而后者是个性识别,判定说话人的身份。

这部分可以参考之前的总结:声纹识别·总章

参考:

语音识别(ASR)基础介绍第一篇——语音识别的物理学背景机械波简述------说说纵波(声波是一种纵波)立体声、双声道、单声道的区别python对语音信号读取、分帧、加窗语音信号语谱图分析


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3