David Weenink 第二讲 元音声学特征笔记

您所在的位置:网站首页 前元音和后元音哪个舌位高一些 David Weenink 第二讲 元音声学特征笔记

David Weenink 第二讲 元音声学特征笔记

2023-11-19 07:22| 来源: 网络整理| 查看: 265

感谢暨南大学汉语方言研究中心和语音及语言信息处理实验教学示范中心无偿开放了第九期汉语方言语音记录与分析高级研修班的课程。这里分享自己的笔记与大家交流,如有错误,敬请指正!

课程视频原址:https://space.bilibili.com/1070779746/

元音声学特征

00:03:25这是维基百科上找到一张显示人类语言器官speech apparatus一部分的图,有一个非常重要的部分没有出现,那就是肺。肺lungs是语音的动力源power source。这个动力源充满了能量,充满了空气,但不是以一种主动的方式,因为我们不能把空气吸入肺里suck air into the lungs.我们要做的是利用物理原理,如果空间存在联系,空间之间的压力趋于稳定。这种平衡到处都是,如果它们相连接就会有相同的压力。这个物理现象被我们的吸气周期所使用。因为如果你想让肺充满空气,我们就增加肺的容积。通过增加肺活量,你们在中小学时知道一个物理关系:压强乘以体积是一个常数the pressure times the volume is a constant如果我们增加体积,肺部的压力会下降,这意味着肺部的压力会低于外界空气的压力。所以如果这里都打开,喉部声带打开。在肺部和外部世界之间就有一个压力差,来自外部世界的空气粒子会进入肺部。所以吸气会增加肺的容积,压力就会下降,空气进入肺部,直到肺部的压力等于外部压力。如果我们关闭喉部的声带,然后让负责增加肺容积的肌肉放松,让周围肋骨和肌肉给肺施加压力,肺里的压力会增加,因为肺的体积减少了。所以一旦声带打开,空气就会通过,然后当它们再次闭合时,我们就会听到声音。声带打开和关闭是有规律的,但这是一个被动的过程。所以这是声带的运动,当它们被空气的压力打开时,我们就能发音。对于清音来说,声带就是打开的,收缩是由舌头和牙齿形成,因此改变气流。总的来说,声音是由声道形成的。00:10:55舌头可以在嘴里移动造成各种收缩,元音被定义为一个声音中相对来说没有收缩的那一部分,唯一改变的是声道的形状。元音和比辅音相对稳定,有更长的时长。元音,比如单元音monophthong,比辅音更稳定constant。双元音diphthong是另一种情况。以上是关于声音的产生,肺部是动力源,空气通过喉部,这是我们说话最重要的部分,它决定了声音是否发声。但是,声带的开闭不是一个主动的过程,没有专门打开声带的肌肉,没有专门关闭声带的肌肉,只有一些保持声道张力的肌肉,它们不涉及打开和闭合。因为肌肉的运动没有快到像声带振动那样的频率。比如女性有200Hz,就是1秒钟振动200下,没有任何动物能主动让肌肉运动这么快。50次已经是非常高的肌肉活动量了,这在物理上是不可能的,所以这个过程是被动的。举了一个吹气球的例子解释了一些擦音产生

共振resonance

说了一些舌位前后高低圆唇产生不同元音。source filter model声源滤波理论复合元音随时间变化比较难分析

00:30:25声学部分

介绍了一下演示用到的美国人的语音数据库录音文件:She had your dark suit in greasy wash water all year.中间有一些silence静默段。所有音位都用IPA转写了

00:40:00可以通过测量间距计算音高

擦音的能量集中在较高的频段,这就是分析共振峰的时候限定分析的频率范围的原因。??声道越长,频率降低;声道越短,频率升高。女性声道更短,频率更高。但是男女性或多或少相同,所以频率在一定范围。男性大约是每1kHz一个共振峰,女性大约是每1.1kHz一个共振峰,可以用tube models管道模型计算。所以要测5个共振峰,男性要0-5000Hz(formant ceiling共振峰上限),女性0-5500Hz,因为声道更短,频率更高。

可以看到共振峰多低于5000Hz

01:07:40 测量共振峰

如何快速识别复合元音compound vowel(双元音diphthong,或三元音triphthong)中的单个元音

如果你在双元音或三元音中看单个元音是很困难的,甚至是不可能的,我可能会说别这么做。如果你知道他是一个双元音,就把它标为双元音,如果是三元音就标成三元音。因为共振峰轨迹,比如双元音au,从a到u,第一共振峰F1整体都在变化 ,可以把它标成一个整体,au音。我会建议只把它们标成双元音或三元音。根据共振峰轨迹对元音进行比较,应该包括整体,基于轨迹的比较,而不是基于个体和测量点。对于发声部分,很难去标注,难以得到一个确切的点。如果辅音和元音都是浊的,要弄清分界很难,不同处理可能也会相差几个毫秒,会有随意性。如果你有像双元音这样的复合元音是很棘手的,元音是梯度移动的,很难精确定位哪个点是属于哪个音的。所以我建议尽量去避免,尽量避免那种基于轨迹的比较,因为轨迹中包含了适当的标准化。??以上是关于这个标注的内容。

如何设置相关参数进行元音分析

这是一个非常复杂的问题,在此将部分解释。进行元音分析我们需要音高pitch、音强intensity、共振峰formantsFormant settings,这是一个男性声音,共振峰上限舌位5000Hz,在这个范围里可以找前5个共振峰,window length已经解释过了

Advanced formant settingspre-emphasis: 预加重此处做一个二维频谱,频谱有一个斜率,频谱会下降,高频处比最高峰低了50dB,为了提高高频表现,需要预加重。这个在作者的书里Formant frequency analysis一章进行了解释,我们需要提高高频给他们一个更好的机会来测量性能,我们保持默认50Hz的设置。所以就是为了进行共振峰频率分析,我们必须把更高的频率提升一点。

红点是共振峰频率,通过标准算法测量,但是不带音unvoiced的部分也出现了红点,不过红点只在带音部分比较稳定。共振峰频率算法只是对采样进行了处理,得到结果。它不关心这些样本的内容是什么,它只是一个算法。它只是机械地产生一个输出,如果你要求五个共振峰,你会从算法中得到五个数字。这些数字是对是错,算法在这方面不会告诉你。你要5个就是5个,如果它们都是真的共振峰,那你很幸运,如果不是,也就这样了。

算法的参数是如何干扰测量的

把窗口缩小一点,可以有个全局印象。在元音部分,或多或少都是规则的,至少前三个共振峰,有时第4、5个共振峰也是周期规则的。这个录音就比较好。以上似乎是合理的,然后看看 这些东西是如何随着我们的分析参数而变化的。我们想要知道底层的算法可以有更多的自由度。如果我们把Number of formants设为5.5或4,两种设定都会变得不一样,那么哪个度量是正确的?没有人知道,因为没有参考。我们只有算法,一旦我们使用相同的算法与相同数量的共振峰,以及共振峰上限,它的结果在这将是可复制的。这很难确定,所以在共振峰频率分析中会有随意性。我们唯一知道的是,如果我们有一个声音文件,我们用相同的算法与相同数量的共振峰,以及共振峰上限来分析它,在第二天进行分析,结果也是一样的。但如果我们改变其中一个参数,例如我们共振峰上限,假如是个女性的声音,改成5500,变化不大。那么这是什么意思?比较幸运的是Formant ceiling的改变对第一、第二共振峰影响不大。前两个共振峰很稳定,那么共振峰设置的一个小变化可能不会导致测量值的大变化。但有时会有巨大的变化。原则上,你不知道你的测量值是否可信,之后会讨论。作者加入了另一种方法,通过比较来测量共振峰频率。所以在一种高级方法中,我称之为formant path editor 你可以从参数7对um有更多的影响 然后在同一时间看到不同分析的结果,你可以对共振峰参数有更多的操作,然后在同一时间看到不同分析的结果。但是我们首先会有一个关于共振峰频率测量的完整环节。如果你做标准的分析,我建议你为男性设置5000Hz 5个共振峰,女性5500Hz 5个共振峰。这符合大多数测量。但是正如示例显示,如果使用其他参数测量结果会不同,如果用更短的window length,你会看到曲线有变化。谁知道哪个是真的?我不知道。因此,共振峰频率测量总是很棘手。我们理想地想要测量的是口腔共振峰,但是一些美国方言中还有鼻化元音,鼻音共振峰也会出现在信号里。为了解释你的分析结果,你有时必须小心。如果你能经常比较共振峰轨迹的表现跟你的期望的差距就更好了,稳不稳定?规不规则?共振峰轨迹可能会变化,但不会跳跃性变化。即便你有嘎裂声,但是共振峰会比音高稳定。以上回答了开始时提出的问题,我们应该如何设置相关的参数,至少在共振峰方面。就算你只对前三个共振峰感兴趣,保持默认设置即可(男5000,女5500),然后取前两个或三个共振峰。因为第一和第二共振峰几乎完全决定了元音音质。下次讲语音合成的时候,会说这个事情。另外,作者书中关于共振峰频率分析的章节需要扩展,还需要描述新开发的分析方法,这需要一些时间。但是里面已经有一些信息,可以手动测量共振峰频率。说了一下作业,根据波形测量共振峰通过语图观察不同元音,观察你的数据,你可以知道它是多可靠的。以上就是共振峰频率分析中存在的随意性arbitrariness。

这是一个基频的周期,从波形上选的145.368/s接近146.3Hz,在这个周期里可以大概看到有两个缓慢的周期,就是低频(第一)共振峰,把基频 * 2,差不多是300Hz,接近312.7Hz。

第二共振峰试了几次,翻车了。试着量了10个谐波,测出来第四共振峰的频率。

可以看到共振有强有弱

01:44:40回答问题

1.when measuring the frequency of Chinese character, is there any standard for us to observe to decide the beginning point and ending point of the pitch line?音高线的起点是清楚的。做一个音高分析,音高在不带音中是不连续的。

我们通常会使用一个pitch tier。

pitch tier跟上面的pitch对象的区别是有一个不间断的曲线。pitch tier没有给你什么信息,它只是一种保证,可以在上面插值。

pitch tier只有一条曲线。如果想知道pitch从哪儿开始,需要额外的信息,需要原始音高,你可以做一个音高分析,信息总是会存到声音中。

2.When we design the Chinese character, is it necessary to take different combinations of syllables into consideration like bi, bian,bie or just bi,pi,ti with the monosyllable?没有理解这里说的monosyllable指什么,如果是单元音可以跟双元音的共振峰轨迹比较。

3.If a language has creaky/non-creaky vowels, how to distinguish it by using Praat. I have demonstrated those distinctive features by comparing spectrogram(waveform/vowel duration time/first formant and second formant etc ). I also compared them by spectrum(sound pressure level dB and its frequency) they also show different spectrums. However, I did not find any previous research on the identification of creaky/non-creaky vowels by comparing sound pressure and frequency. My question is whether it is available to distinguish vowels by comparing spectrums?这是一个简单的问题,回答起来会有点无聊,只给一点提示。实际上你问的是有没有一个自动的creaky检测器,我猜是问有没有一种算法可以自动检测creaky。看一个最简单的嘎裂特征,升降升的中间部分,音高断裂了,虽然还是发声的,音高很不规则,但是共振峰还是规则的。看一个频谱图,共振峰频率还是正常的。这两者结合可能就表明了creaky的存在。

再次感谢David的分享,感谢暨大的老师同学组织活动!



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3