医学报告生成 On the Automatic Generation of Medical Imaging Reports |
您所在的位置:网站首页 › 医学mlc › 医学报告生成 On the Automatic Generation of Medical Imaging Reports |
Jing B, Xie P, Xing E. On the Automatic Generation of Medical Imaging Reports[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2018: 2577-2586. 论文导读医学图像在诊断和治疗中广泛应用。但对于一个经验不丰富的医生,写报告可能会出错(error-prone),对于经验丰富的医生费时费力。因此需要自动生成医学图像报告,辅助医生诊断。生成报告有如下挑战: 报告组成成分多,有findings和tags。 图像中的异常区域难以辨别。 报告长,包含多句话。为了解决上述的难题,本文提出了如下方法,并在两个数据集上进行验证: 构建了多任务学习框架(multi-task learning framework),同时对tag预测和finding生成。 co-attention 机制,定位异常区域。 提出了层级的LSTM,生成长段落。 模型结构一份医学报告长这样,findings里面是对医学影像的描述,tags是报告中的关键词。任务需要输入图像,输出tags分类结果,并输出报告。(impression里面是对病例的诊断)。 模型结构如下图: 输入图像后,使用CNN提取patch 报告是多个句子的,论文采用了先生成每个句子的high-level topic vector,之后再根据这个vector生成相应的句子。从co-attention中输出的context vector首先输入sentence LSTM,生成每一个句子所对应的topic vector,代表了每一个句子的语义信息。之后topic vector再输入到word LSTM里生成整个句子。 Tag Prediction多标签分类任务,把visual feature 对于每一个tag,都生成一个预测值,之后作用一个指数函数??个人感觉是想表达softmax,并通过一个阈值确定类别1和0,代表有这个tag和没有这个tag。与多类别分类任务不同,多类别任务是对最终的输出向量整体作用softmax。本文使用了VGG19的卷积层提取visual features,最后两层FC用作MLC。之后,分类出来的tags被embedding为semantic features Visual Attention 可以定位目标(ObjectRecognition),也可以帮助生成图像说明文字(ImageCaption),但可能不会提供高阶的语义信息。然而tags总是可以提供高阶语义信息,因此使用co-attention 机制同时注意visual和semantic模态(modalities)。
这里co-attention会利用 这里的正比符号,相当于是在feature channel维度上面做了softmax,最终的 visual and semantic context vector分别是前面的attention和: 最后把两个向量拼接在一起,在使用fully connected layer得到最终的输入到sentence LSTM中的joint context vector 这个地方最终的 这一部分是包含Sentence LSTM,topic generator和stop control component。Sentence LSTM 是一个单层的LSTM,接收 接收Sentence LSTM的hidden state 以前一步和当前步的hidden state 如果大于预定好的阈值,则停止,否则继续生成。 Word LSTMtopic vector 最终的损失函数如下: 最后害加入了一个正则化项,是关于visual and semantic attentions矩阵 这个正则化鼓励模型在不同的图像区域以及不同的tags上面,都有相似的注意力。 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |