异质数据的表示,对齐方法及其应用

您所在的位置:网站首页 数据的对齐信息包括 异质数据的表示,对齐方法及其应用

异质数据的表示,对齐方法及其应用

2024-07-17 08:02| 来源: 网络整理| 查看: 265

来自 知网  喜欢 0

阅读量:

368

作者:

吴彪

展开

摘要:

在现实信息系统中,数据类型和结构的差异性普遍存在,对于这类数据,本文称之为异质数据.异质数据所关联的对象具有数据类型和结构的多样性,使得融合异质数据是一个极具挑战的问题.根据数据特性,异质数据可分为结构异质数据和类型异质数据.结构异质数据的表示形式多样,且不同的数据之间存在非一一对应性.类型异质数据的不同数据类型具有不同的特点,离散型数据在任何两个数据点之间的个数是有限的,其处理起来更加灵活且简洁.连续型数据的数据点之间可以细分出无限多个数值,具有规律性.当不同数据类型的异质数据共同存在时,如何实现二者的融合对模型提出了新的挑战.现有的一类方法,是通过表示学习的方法将其映射到低维嵌入空间,进而在嵌入空间上进行高层信息的对齐.然而,在不同应用场景中,异质数据中不同元素具有各自的分布和特点,需要结合具体应用场景特性,将各类元素进行表示和对齐.本文正是针对异质数据表示和对齐的两个典型应用场景"知识图谱问答"和"异质环境信息下的推荐"展开研究;从两类场景的数据特性和对齐任务出发,进行了以下几个方面的创新性研究:首先,针对知识图谱问答,研究了结构异质数据的表示学习与对齐方法.本文主要关注序列型数据(文本)和图结构数据(知识图谱)的语义表征和对齐,重点研究了基于子图结构对齐的知识图谱问答.该问题的主要挑战在于:(1)包含多个组成成分(实体)的复杂文本数据如何与结构数据进行表示与对齐;(2)当序列型问题涉及多个关系推理时,如何应对复杂的推理过程.本文的方案是将其转化为子图结构与文本序列的语义对齐问题加以解决,提出一种基于有向无环图结构的知识图谱子图形式,该子图能够包含与问题中的多个实体和关系相关的信息,并设计了一个基于有向无环图结构的长短期记忆网络和键-值记忆网络的深度学习框架DAG-SCHEMA,实现文本与子图结构的语义表征和对齐.实验结果表明,该方法在广泛使用的数据集上性能优于其他方法,特别是在处理包含多个实体的复杂问题的问答中更具有优势,从而验证了此类方案能够有效的对结构异质数据进行表示学习和对齐.其次,针对异质环境信息下的推荐,研究了类型异质数据的表示学习及对齐方法的设计.该问题主要挑战在于:(1)如何对多种类型的异质环境信息进行融合表征;(2)如何结合不同的任务特性进行对齐损失函数的设计.本文的方案是,首先结合异质附属信息中不同类型属性的特点,将其转化为异构网络上的节点表示问题实现异质环境信息的融合表征,进而研究了基于内积的对齐损失函数的设计问题,通过分解用户-项目的直接交互信息实现数据的对齐.同时考虑到不同推荐场景的任务倾向的差异性,还研究了基于个性化排序的对齐损失函数的设计问题,通过刻画用户对项目偏好的差异实现用户-项目的表征和对齐.多个真实的推荐数据集上的实验结果表明,本文所提出的UserItem2vec和COIR算法比现有的基准算法能够更有效的处理该问题,特别是对于处理异质数据中少见的数据节点具有更好的效果.最后,针对表征对齐中的一类特殊情况"隐式反馈"进行了对齐损失及学习算法的改进.隐式反馈主要面临负类样本缺失和对齐监督信号不充分的挑战,在一类特殊情况下,反馈本身是多样化的.本文的方案是通过构建包含不同类型节点和边的异构网络建模多种类型的正反馈信息,并在此基础上设计了一个针对隐式负反馈样本的自注意力机制INA模型,从而能够自动学习和调整样本在对齐监督信号中的影响,解决当前主流方法中负采样参数难以确定的问题.多个数据集上的实验结果验证了本文所提出的算法能够对隐式反馈进行有效的表示学习和对齐.

展开



【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3