M3ED数据集格式

您所在的位置:网站首页 数据类型的目的 M3ED数据集格式

M3ED数据集格式

2023-04-18 09:52| 来源: 网络整理| 查看: 265

数据集链接:

论文链接:

本次打算参加中国情感计算大会的多模态对话中的情感识别任务(MERC_Challenge_CCAC2023),本次任务用到的数据集为中国人民大学AI·M³多媒体计算实验室提出的M3ED(Multi-modal Multi-scene Multi-label Emotional Dialogue)。

本文以记录M3ED数据集格式为目的,便于之后的dataset类构建。

数据集总览数据类型训练集验证集测试集总数# dialogs685126179990# turns6505101615619082# utts174272821420124449# spkrs42187118626

其中dialogs为对话数量,turns为对话轮数,utts为语句数量,spkrs为说话人数量

在github提供的M3ED Features里有4份文件:

经过探查,每个pkl文件的数据格式相同,只是处理细节有点区别,后续可根据需求选取不同处理方式的数据集。这次以”Asent_wav2vec_zh2chmed2e5last-Vsent_avg_affectdenseface-Lsent_avg_robert_base_wwm_chinese.pkl“文件为例。用a来加载该文件:

a = load_pkl(pkl_path)

输出a可知,该pkl文件数据类型为list类型,长度为10,用a[0] - a[9]可调用每一切片。

a[0] - a[6]存储的是每一个对话轮次的信息,因此len(a[0]) = len(a[1]) = ... = len(a[6]) = 990,990代表有990个对话轮次。a[7] - a[9]以训练集、验证集、测试集为划分的对话轮次信息,长度分别为len(a[7]) = 685, len(a[8]) = 126, len(a[9]) = 179.

接下来是具体分析。

具体分析a[0] - a[2]

以编号为‘fendou_1’的对话为例,

a[0]['fendou_1'] 存储的是完整的语句信息,如 'A_fendou_1_1','B_fendou_1_2' 等等。其中A、B代表说话人A,fendou_1代表对话编号,最后一个1、2为语句编号),a[0]['fendou_1']长度为该对话长度,为20。

a[1]['fendou_1'] 存储的是说话人编号A、B

a[2]['fendou_1'] 存储的是情感标签

a[0] - a[2]a[3] - a[5]

以编号为‘fendou_1’的对话为例,

a[3]['fendou_1'] 存储的是文本特征(句级),用Roberta模型提取,shape为(20, 768),20表示该轮对话有20条语句,嵌入维度为768.

a[4]['fendou_1'] 存储的是音频特征(句级),用Wav2Vec2.0模型提取,shape为(20, 1024),嵌入维度为1024.

a[5]['fendou_1'] 存储的是视觉特征(句级),用DenseNet模型提取,shape为(20, 342),嵌入维度为342。

a[6]

以编号为‘fendou_1’的对话为例,

a[6]['fendou_1'] 存储的是该轮对话的语句文本,长度为20.

a[6]a[7] - a[9]

a[7]是训练集,类型为list,元素为对话轮次编号,如['fendou_1', 'fendou_2',...,'fendou_20', 'zhengfu_1',...],长度为685,表示训练集中对话轮次有685次。

a[8]a[9]和a[7]类似,元素均为对话轮次编号,长度分别为126和179,表示验证集对话轮次有126次以及测试集对话轮次有179次。

a[7] - a[9]

此为初步探查,可能会有些问题,后续若有发现会及时更正。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3