[1603.07396] A Diagram Is Worth A Dozen Images

您所在的位置:网站首页 dozen图片 [1603.07396] A Diagram Is Worth A Dozen Images

[1603.07396] A Diagram Is Worth A Dozen Images

2024-07-09 05:16| 来源: 网络整理| 查看: 265

1简介

数千年来,视觉插图一直被用来描绘人、动物的生活、他们的环境和重大事件。 考古发现出土的洞穴壁画清晰地描绘了狩猎、宗教仪式、公共舞蹈、埋葬等。从古代岩石雕刻和地图,到现代信息图形和 3D 可视化,再到科学教科书中的图表,视觉效果的集合插图非常庞大、多样且不断增长,构成了视觉数据的相当大一部分。 这些插图通常代表复杂的概念,例如事件或系统,否则很难用几句话文本或自然图像来描述(图1)。

图1: 视觉插图的空间非常丰富多样。 顶部调色板显示了新图表数据集 AI2D 中图表的类间变异性。 底部调色板显示了水循环类别的类内变化。

虽然理解自然图像一直是计算机视觉研究的一个主要领域,但理解丰富的视觉插图却很少受到关注。 从计算机视觉的角度来看,这些插图本质上与自然图像不同,并提供了一系列独特且有趣的问题。 由于它们是专门为表达信息而设计的,因此它们通常会抑制不相关的信号,例如背景杂乱、复杂的纹理和阴影细微差别。 这通常使得单个元素的检测和识别本质上不同于自然图像中的对应元素(对象)。 另一方面,视觉插图可以描绘复杂的现象和对象之间的高阶关系(例如时间转换、相变和对象间依赖性),这远远超出了单个自然图像所能传达的范围。 例如,人们可能很难找到能够紧凑地代表一些小学科学图表中所见现象的自然图像,如图 1 所示。 在本文中,我们通过识别视觉实体及其关系以及建立与现实世界概念的语义对应来定义理解视觉插图的问题。

与自然图像相比,视觉插图的特征还提供了更深入推理的机会。 考虑图1中的食物网,它代表了几种关系,例如狐狸吃兔子和兔子吃植物。 人们可以进一步推断实体之间的高阶关系,例如植物数量减少对狐狸数量的影响。 同样,请考虑图 1 中单个水循环图中显示的无数现象。 其中一些现象被证明发生在地球表面,而另一些则发生在地表之上或之下。 循环的主要组成部分(例如蒸发和冷凝)被标记,并使用箭头显示水流。 在如此丰富的场景中推理这些物体及其相互作用提供了许多令人兴奋的研究挑战。

在本文中,我们解决了科学图表背景下的图表解释和推理问题,定义为句法解析和语义解释两项任务t2>。 句法分析涉及检测和识别图表中的成分及其句法关系。 这与自然图像中的场景解析问题最相似。 各种各样的图表以及较大的类内变化(图1显示了描绘水循环的几张不同的图像)使得这一步非常具有挑战性。 语义解释是将成分及其关系映射到语义实体和事件(现实世界概念)的任务。 考虑到映射函数固有的模糊性,这是一项具有挑战性的任务。 例如,食物链图中的箭头通常对应于消耗的概念,水循环中的箭头通常指的是相变,行星图中的箭头通常指的是到旋转运动。

我们引入了一种表示形式来对图中的图成分及其关系进行编码,称为图解析图 (DPG)(示例 DPG 如图 6 所示)。 图的句法分析问题被表述为学习推断最能解释图的 DPG 的任务。 我们引入了深度序列图解析器网络 (Dsdp-Net),它使用长短期记忆 (LSTM) 网络学习顺序添加关系及其组成部分以形成 DPG。 在图表问答的背景下研究对图表进行语义解释以及对成分及其关系进行推理的问题。 我们提出了一种神经网络架构(称为Dqa-Net),在给定有关图表的问题的情况下,它学习关注 DPG 中的有用关系。

我们编译了一个名为 AI2 图 (AI2D) 的数据集,其中包含 5000 多个小学科学图表,其中包含超过 150000 个丰富的注释、其基本事实句法解析以及超过 15000 个相应的多项选择题。 我们的实验结果表明,所提出的用于句法解析的 Dsdp-Net 优于几种基线方法。 此外,我们还表明,所提出的将图表关系纳入问答的方法优于标准的视觉问答方法。

我们的贡献包括:(a)我们提出了图解释和推理的两个新任务,(b)我们引入了 DPG 表示来对图解析进行编码,并引入了一个学习将图映射到 DPG 的模型,(c)我们引入了一个模型图表问答,将问题的注意力学习到 DPG 中,并且(d)我们提出了一个新的数据集来用基线评估上述模型。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3