SER 语音情感识别

2024-02-27 11:25| 来源: 网络整理| 查看: 265

SER 语音情感识别-论文笔记2

《Speech emotion recognition: Emotional models, databases, features, preprocessing methods, supporting modalities, and classifiers 》

文章目录 SER 语音情感识别-论文笔记2摘要一、介绍二、相关工作三、情感四、数据集五、语音情感识别5.1 前处理5.2 特征5.3 支持方式5.4 分类六、挑战

摘要

语言是人类表达自己最自然的方式。因此，将这种通信媒介扩展到计算机应用是很自然的。我们将语音情感识别（SER）系统定义为一系列处理和分类语音信号以检测嵌入情感的方法。SER并不是一个新的领域，它已经存在了20多年，并且由于最近的进步而重新受到关注。这些新颖的研究利用了计算和技术所有领域的进步，因此有必要更新使SER成为可能的当前方法和技术。我们已经确定并讨论了SER的不同领域，对每个领域的当前文献进行了详细的调查，并列出了当前的挑战。

一、介绍

在这里插入图片描述

SER系统主要分为情感模型，数据库，预处理，特征提取，支持模式，分类的方法。

二、相关工作

在这里插入图片描述

三、情感

情感模型——

离散形式情感描述模型（只能刻画单一的，有限种类的情感类型）将情感描述为离散的，形容词标签的形式，如高兴，愤怒等。丰富的语音标签描述了大量的情感状态，而用于研究的情感状态需要更具有普遍性维度形式情感模型（连续情感描述模型）（无限的情感描述能力）将情感状态描述为多维情感空间中的点，这里的情感空间实际上是一个笛卡尔空间，空间的每一维对应着情感的一个心理学属性。理论上，该空间的情感描述能力能够涵盖所有的情感状态，换句话说，任意的，现实中存在的情感状态都可以在情感空间中找到对应的映射点，并且各维坐标值的数值大小反映了情感状态在相应维度上所表现出来的强弱程度。四、数据集

在这里插入图片描述

五、语音情感识别 5.1 前处理

5.1.1 框架信号框架，也成为语音分割，是将连续语音信号分成固定长度段的过程。通过绘制语音信号可以近似该维静态状态，并且可以获得局部特征。 5.1.2 窗口在对语音信号进行帧处理后，下一阶段通常是对帧应用窗口函数。加窗函数用于减少在快速傅里叶变换（FFT）期间由于信号边缘的不连续性而导致的数据泄漏的影响。通常使用汉明窗。 5.1.3 语音活性检测话语由三部分组成；有声讲话、无声讲话和沉默。浊音是通过声带振动产生的，在音素发音过程中，声带对声道产生周期性的刺激，音素是区分一个词和另一个词的感知不同的声音单位；比如包，标签，标签。另一方面，清音语音是空气通过声道收缩的结果，产生瞬态和湍流噪声，这些噪声是声道的非周期性刺激。由于浊音的周期性，它可以被识别和提取。在各种清音语音和静默中检测有声语音的存在被称为端点检测、语音检测或语音活动检测 VAD是一项用于语音处理的技术，目的是检测语音信号是否存在，VAD主要用于语音编码和语音识别。 5.1.4 归一化特征归一化是一个重要的步骤，用于减少说话人和录音的可变性，而不丢失特征的鉴别强度。通过特征归一化，提高了特征的泛化能力。规范化可以在不同的层次上进行，比如功能层次和语料库层次. 5.1.5 降噪在现实生活中，环境中的噪声与语音信号一起被捕获。这会影响识别率，因此必须使用一些降噪技术来消除或降低噪声。最小均方误差（MMSE）和对数谱振幅MMSE（LogMMSE）估计器是最成功应用的降噪方法（Pohjalainen等人，2016）。 5.1.6 特征选择和尺寸减少特征选择是选择给定的功能集的相关和有用子集的过程。识别并删除不需要的，冗余或无能的属性以提供更准确的模型。

5.2 特征

5.2.1 prosodic features（韵律特征）韵律特征是人类可以感知的特征。比如语调和节奏最广泛使用的韵律特征基于基本频率、能量和持续时间。基频F0由声带的振动产生。它产生了语音的节奏和音调特征。基频在话语过程中的变化会产生基频，其统计特性可以作为特征。语音信号的能量，有时称为音量或强度，提供了反映语音信号随时间变化幅度的表示。研究人员表示，愤怒、快乐或惊讶等高唤醒情绪会增加能量，而厌恶和悲伤会导致能量降低（Lin等人，2012年）。持续时间是指构建元音、单词和语音中存在的类似结构所需的时间。语速、静默区持续时间、浊音和清音区持续时间、最长浊音持续时间是最广泛使用的与持续时间相关的特征。韵律特征与情绪状态之间存在相关性。韵律特征揭示了情感言语过程中的变化。例如，在愤怒、恐惧、焦虑和喜悦等高水平唤醒情绪的产生过程中，平均F 0、F 0变异能力和声音强度都会增加。在表达愤怒的过程中，F 0轮廓随着时间的推移而减小。相反，在表达喜悦时，它会随着时间的推移而增加。 5.2.2 Spectral features （基于谱的特征）发出的声音由这个形状决定。精确的形状可能会精确地表示声道和产生的声音。有MFCC，LPCC，GFCC 5.2.3 Voice quality features (声音质量特征) 声音质量由声道的物理特性决定。非自愿变化可能会产生语音信号，该信号可能会使用抖动、微光和谐波噪声比（HNR）等特性来区分情绪。 5.2.4. Teager energy operator based features 有一些功能取决于Teager(能量运算符)，它被用来检测语音中的重音。

5.3 支持方式

有几种技术可以用于情绪识别系统。这些系统使用视觉信号，生理信号，单词识别，大脑信号等模式对情绪分类。使用多种模式对情绪进行分类的系统称为多模态或多线索融合情绪识别系统。在多模态系统中，多模态的融合可以分为四类：特征级、决策级、模型级和混合融合（Wu等人，2013）。

5.4 分类

研究中使用的特征和分类器

5.4.1 传统分类器

最受欢迎的算法是隐马尔可夫模型（HMM）、高斯混合模型（GMM）、支持向量机（SVM）和人工神经网络（ANN）。还有基于决策树（DT）、k-最近邻（k-NN）、k-均值和朴素贝叶斯分类器的分类方法。除了使用单个分类器外，SER还使用可感知方法，将多个分类器组合在一起以获得更好的结果。

5.4.1.1 HMM HMM是一种常用的语音识别方法，系统在t时刻只依赖于t-1时刻的前一个状态。然而无法看到生成t时刻的过程。通过观察系统的当前状态，可以使用概率来预测下一个状态。 GMM GMM是一种概率方法，可以看作是只包含一个状态的连续的HMM的特例。 5.4.1.2 ANN（人工神经网络） SVM（支持向量机）是一种有监督的分类器。可以为线性可分模式找到最优超平面 5.4.1.3　分类器集合集成学习，在集成学习中，许多机器学习算法被结合起来，以提高预测性能。一种是通过比较结果向每个分类器提供相同的数据，从而获得最终决策；另一种是以分层的方式输入分类器中，然后给出最后的决策。 5.4.2　基于深度学习的分类器其中一些算法的优点是不需要特征提取和特征选择的步骤 5.4.2.1　RNN RNN成功用于时序数据。RNN一个单元产生一个输出时，它将数据转发到下一个单元，并将输出循环到自身。 LSTM-RNN是一种选通RNN，是解决RNN长期依赖的最有效的实际应用模型。他们将时间维度添加到2D激活情感模型中，以创建一个新的3D模型。 5.4.2.2 CNN CNN可以成功地从输入源捕获时间和空间的依赖性，在不损失特征的情况下，将输入简化为一种形式。 5.4.3　用于分类增强的机器学习技术 5.4.3.1　自动编码器自动编码器将原始输入数据重建为输出。自动编码器作为一个特征提取器，而不是一个分类器，在训练自动回滚编码器后，编码器部分连接到分类器。 5.4.3.2　多任务学习单任务学习，其目的是学习和预测话语中的情绪。通过情绪的识别被定为首要任务，而性别自发性，自然分类等其他任务被选为辅助任务。 5.4.3.3　注意力机制情绪并不是均匀的分布在整个话语中，而是在前面提到的特定部分上观察到的。在语言情感识别中这种注意力机制用于关注给定语句种的特定部分。 5.4.3.4 迁移学习迁移学习最常用的是使用一组源数据模型或使用预先训练的模型，然后将所学知识作为相关任务的起点。或者对模型进行微调。 5.4.3.5 对抗性训练对抗性训练用于提高语言情感识别系统的识别率。该系统使用真是样本和对抗样本对模型进行训练。当小扰动添加到训练样本时，模型输出的大扰动会收到对抗性训练的惩罚。

六、挑战

最重要的问题之一是生成用于学习过程的数据集其次是跨语言系统种的工作。

【本文地址】

SER 语音情感识别

SER 语音情感识别

今日新闻

推荐新闻