M3ED数据集格式

2023-04-18 09:52| 来源: 网络整理| 查看: 265

数据集链接：

论文链接：

本次打算参加中国情感计算大会的多模态对话中的情感识别任务（MERC_Challenge_CCAC2023），本次任务用到的数据集为中国人民大学AI·M³多媒体计算实验室提出的M3ED（Multi-modal Multi-scene Multi-label Emotional Dialogue）。

本文以记录M3ED数据集格式为目的，便于之后的dataset类构建。

数据集总览数据类型训练集验证集测试集总数# dialogs685126179990# turns6505101615619082# utts174272821420124449# spkrs42187118626

其中dialogs为对话数量，turns为对话轮数，utts为语句数量，spkrs为说话人数量

在github提供的M3ED Features里有4份文件：

经过探查，每个pkl文件的数据格式相同，只是处理细节有点区别，后续可根据需求选取不同处理方式的数据集。这次以”Asent_wav2vec_zh2chmed2e5last-Vsent_avg_affectdenseface-Lsent_avg_robert_base_wwm_chinese.pkl“文件为例。用a来加载该文件：

a = load_pkl(pkl_path)

输出a可知，该pkl文件数据类型为list类型，长度为10，用a[0] - a[9]可调用每一切片。

a[0] - a[6]存储的是每一个对话轮次的信息，因此len(a[0]) = len(a[1]) = ... = len(a[6]) = 990，990代表有990个对话轮次。a[7] - a[9]以训练集、验证集、测试集为划分的对话轮次信息，长度分别为len(a[7]) = 685, len(a[8]) = 126, len(a[9]) = 179.

接下来是具体分析。

具体分析a[0] - a[2]

以编号为‘fendou_1’的对话为例，

a[0]['fendou_1'] 存储的是完整的语句信息，如 'A_fendou_1_1'，'B_fendou_1_2' 等等。其中A、B代表说话人A，fendou_1代表对话编号，最后一个1、2为语句编号），a[0]['fendou_1']长度为该对话长度，为20。

a[1]['fendou_1'] 存储的是说话人编号A、B

a[2]['fendou_1'] 存储的是情感标签

a[0] - a[2]a[3] - a[5]

以编号为‘fendou_1’的对话为例，

a[3]['fendou_1'] 存储的是文本特征（句级），用Roberta模型提取，shape为(20, 768)，20表示该轮对话有20条语句，嵌入维度为768.

a[4]['fendou_1'] 存储的是音频特征（句级），用Wav2Vec2.0模型提取，shape为(20, 1024)，嵌入维度为1024.

a[5]['fendou_1'] 存储的是视觉特征（句级），用DenseNet模型提取，shape为(20, 342)，嵌入维度为342。

a[6]

以编号为‘fendou_1’的对话为例，

a[6]['fendou_1'] 存储的是该轮对话的语句文本，长度为20.

a[6]a[7] - a[9]

a[7]是训练集，类型为list，元素为对话轮次编号，如['fendou_1', 'fendou_2',...,'fendou_20', 'zhengfu_1',...]，长度为685，表示训练集中对话轮次有685次。

a[8]、a[9]和a[7]类似，元素均为对话轮次编号，长度分别为126和179，表示验证集对话轮次有126次以及测试集对话轮次有179次。

a[7] - a[9]

此为初步探查，可能会有些问题，后续若有发现会及时更正。

【本文地址】

M3ED数据集格式

M3ED数据集格式

今日新闻

推荐新闻