CRF的简要介绍及keras实现

您所在的位置：网站首页 › keras实现crf › CRF的简要介绍及keras实现

CRF的简要介绍及keras实现

2024-07-13 05:49| 来源: 网络整理| 查看: 265

图示

本篇文章来自paperweekly的转载，并对其中一些公式做了说明。

原文地址：

https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247489378&idx=1&sn=0e0ed4424bb336022f36d8e2236f96cc&chksm=96e9c8e2a19e41f4d1fb67254ee3c057ce66a4eaa4084db89d53f314c833b73fb79b8ee3c0dd&mpshare=1&scene=1&srcid=0706be9TZ631RnvD2TOvQ5Cx#rd

按照之前的思路，我们依旧来对比一下普通的逐帧 softmax 和 CRF 的异同。

逐帧softmax

CRF 主要用于序列标注问题，可以简单理解为是给序列中的每一帧都进行分类，既然是分类，很自然想到将这个序列用 CNN 或者 RNN 进行编码后，接一个全连接层用 softmax 激活，如下图所示：

▲ 逐帧softmax并没有直接考虑输出的上下文关联

条件随机场

然而，当我们设计标签时，比如用 s、b、m、e 的 4 个标签来做字标注法的分词，目标输出序列本身会带有一些上下文关联，比如 s 后面就不能接 m 和 e，等等。逐标签 softmax 并没有考虑这种输出层面的上下文关联，所以它意味着把这些关联放到了编码层面，希望模型能自己学到这些内容，但有时候会“强模型所难”。

而 CRF 则更直接一点，它将输出层面的关联分离了出来，这使得模型在学习上更为“从容”：

▲ CRF在输出端显式地考虑了上下文关联

数学

当然，如果仅仅是引入输出的关联，还不仅仅是 CRF 的全部，CRF 的真正精巧的地方，是它以路径为单位，考虑的是路径的概率。

模型概要

假如一个输入有 n 帧，每一帧的标签有 k 中可能性，那么理论上就有k^n中不同的输入。我们可以将它用如下的网络图进行简单的可视化。在下图中，每个点代表一个标签的可能性，点之间的连线表示标签之间的关联，而每一种标注结果，都对应着图上的一条完整的路径。

▲ 4tag分词模型中输出网络图

而在序列标注任务中，我们的正确答案是一般是唯一的。比如“今天天气不错”，如果对应的分词结果是“今天/天气/不/错”，那么目标输出序列就是 bebess，除此之外别的路径都不符合要求。

换言之，在序列标注任务中，我们的研究的基本单位应该是路径，我们要做的事情，是从 k^n 条路径选出正确的一条，那就意味着，如果将它视为一个分类问题，那么将是 k^n 类中选一类的分类问题。

这就是逐帧 softmax 和 CRF 的根本不同了：前者将序列标注看成是 n 个 k 分类问题，后者将序列标注看成是 1 个 k^n 分类问题。

【本文地址】

CRF的简要介绍及keras实现

CRF的简要介绍及keras实现

今日新闻

推荐新闻