语音处理/语音识别基础（五）

您所在的位置：网站首页 › 声音强度的单位是什么意思 › 语音处理/语音识别基础（五）

语音处理/语音识别基础（五）

2024-07-06 00:47| 来源: 网络整理| 查看: 265

如前面第3篇讲到，声音的几个主要特征有音量 Volume, 音高 Pitch, 音色 Timbre。

另外有一个重要的特征是过零率 zero crossing rate。

当我们在分析声音时，通常以「短时距分析」（Short-term Analysis）为主，因为音讯在短时间内是相对稳定的。我们通常将声音先切成帧（Frame），每一帧长度大约在 20 ms 左右，再根据帧内的信号来进行分析。

计算音量（Volume/Intensity/Energe）

「音量」代表声音的强度，又称为「响度」、「强度」（Intensity）或「能量」（Energy），可由一个音框内的讯号震幅大小来类比，基本上两种方式来计算：

1).每一个音帧的绝对值（信号绝对值）的总和：其中 si 是一个音帧中的第 i 个取样点，而 n 则是每个音帧包含的采样点数。这种方法的计算较简单，只需要整数运算，适合用于低端平台（如微电脑等）。

2).每一个音帧的信号值平方值的总和，再取以 10 为底对数值，再乘以10：这种方法得到的值是以分贝（Decibels）为单位，是一个相对强度的值，比较符合人耳对于大小声音的感觉。以下网页有对分贝的详细说明：dB: What is a decibel?

音量具有下列特性：

1.一般而言，有浊音（voiced sound）的音量大于清音/气音（unvoiced sound）的音量，而清音的音量又大于噪音的音量。 2.音量是一个相对性的指标，受到麦克风设定的影响很大。 3.通常用在端点侦测，估测浊音（Voiced sound）的音母或韵母的开始位置及结束位置。 4.在计算前最好先减去音讯讯号的平均值，以避免讯号的直流偏移（DC Bias）所导致的误差。对于绝对值加和的方法，通常减去中位数（ median subtraction ）来计算；而对于平方和取对数计算分贝的方法，通常减去平均数（mean substraction）来计算（目的都是为了使得一帧的总音量值在减去噪音的影响后尽可能小）。

上面是通过常量（固定的直流偏移/DC Bias 来做音量计算的零调整。

也可以通过多项式拟合的方法来找到直流偏移/噪音的曲线来做零调整。

在语音录制过程中，由于多种原因，包括静态效应、麦克风上的呼吸和 50Hz 交流电压信号，录制的语音信号很可能会在非零时变值附近振荡（偏移）。为了避免在一帧内出现这种漂移，一种简单的方法是通过多项式拟合来识别时变零曲线（就是说即使没有声音的情况下，也有在0点附近的信号时变近0信号），并通过在原始帧的曲线中删除噪音子轨道来消除漂移。

以下显示如何以两种方法(绝对值/分贝值，同时做零调整)来计算音量：

waveFile='sunday.wav'; % 帧大小取 256，即每一帧 256 个采样点，两帧之间设置 123 个采样点的重叠。 frameSize=256; overlap=128; au=myAudioRead(waveFile); y=au.signal; fs=au.fs; fprintf('Length of %s is %g sec.\n', waveFile, length(y)/fs); % 调用 enframe 自动分帧 frameMat=enframe(y, frameSize, overlap); frameNum=size(frameMat, 2); % Compute volume using method 1 volume1=zeros(frameNum, 1); for i=1:frameNum frame=frameMat(:,i); frame=frame-median(frame); % zero-justified volume1(i)=sum(abs(frame)); % method 1 end % Compute volume using method 2 volume2=zeros(frameNum, 1); for i=1:frameNum frame=frameMat(:,i); frame=frame-mean(frame); % zero-justified volume2(i)=10*log10(sum(frame.^2)+realmin); % method 2 end sampleTime=(1:length(y))/fs; frameTime=((0:frameNum-1)*(frameSize-overlap)+0.5*frameSize)/fs; subplot(3,1,1); plot(sampleTime, y); ylabel(waveFile); subplot(3,1,2); plot(frameTime, volume1, '.-'); ylabel('Volume (Abs. sum)'); subplot(3,1,3); plot(frameTime, volume2, '.-'); ylabel('Volume (Decibels)'); xlabel('Time (sec)');

分析绝对的音量，以及分贝值，得到这样的随着时间变化的波形图：

过零率（Zero Crossing Rate）的计算

「过零率」（Zero Crossing Rate，简称 ZCR）是在声音信号的每一帧中，声音信号的采样值通过零点的次数，具有下列特性：

1.一般而言，噪音及清音（unvoiced sound）的过零率均大于浊音（voiced sound）具有清晰可辨之音高，例如母音）。 2.ZCR 是噪音和清音（unvoiced sound）两者较难从过零率来分辨，会依照录音情况及环境噪音而互有高低。但通常清音的音量会大于噪音。 3.通常用在端点侦测，特别是用在估测清音的起始位置及结束位置。 4.可用来预估讯号的基频，但很容易出错，所以必须先进行前处理。

为了避免直流偏移，通常需要在每一帧里面减去均值。直接计算过零率如下。

% zerocrossingrate.m waveFile='csNthu.wav'; frameSize=256; overlap=0; au=myAudioRead(waveFile); y=au.signal; fs=au.fs; frameMat=enframe(y, frameSize, overlap); frameNum=size(frameMat, 2); for i=1:frameNum frameMat(:,i)=frameMat(:,i)-mean(frameMat(:,i)); % mean justification end zcr=sum(frameMat(1:end-1, :).*frameMat(2:end, :)

【本文地址】

语音处理/语音识别基础（五）

语音处理/语音识别基础（五）

今日新闻

推荐新闻