上的用命名实体识别任务来解释损失函数
回顾
在 前一节 中,我们知道 CRF 层可以从训练数据集中学习一些约束,以确保最终预测的实体标签序列是有效的。
约束条件可以是:
- 句子中第一个单词的标签应该以“B-”或“O”开头,而不是“I-”
- “B-label1 I-label2 I-label3 I-…”,在这个模式中,label1、label2、label3…应该是相同的命名实体标签。例如,“B-Person I-Person”是有效的,但是“B-Person I-Organization”是无效的。
- “O I-label”无效。一个命名实体的第一个标签应该以“B-”而不是“I-”开头,换句话说,有效的模式应该是“O B-label”
- …
阅读本文之后,你将了解为什么 CRF 层可以学习这些约束。
2. CRF 层
在 CRF 层的损失函数中,我们有两种类型的分数。这两个分数是 CRF 层的 关键概念。
2.1 Emission 得分
第一个是 emission 分数。这些 emission 分数来自 BiLSTM 层。例如,如图 2.1 所示,标记为 B-Person 的 w0 的分数为 1.5。
为了方便起见,我们将给每个标签一个索引号,如下表所示。
我们用 {X_{iy}}_j。来表示 emission 分数。i 是 word 的索引,y_j 是 label 的索引。如图 2.1 所示,x_{i=1,y_j=2} = x_{w_1} = 0.1, =1,即 w1 作为 B-Organization 的得分为 0.1。
2.2 Transition 得分
我们使用 t_{y_iy_j} 来表示 transition 分数。例如,t_{B - Person,I-person} = 0.9 表示标签的 transition, B-Persion -> I - Person 得分为 0.9。因此,我们有一个 transition 得分矩阵,它存储了所有标签之间的所有得分。
为了使 transition 评分矩阵更健壮,我们将添加另外两个标签,START 和 END。START 是指一个句子的开头,而不是第一个单词。END 表示句子的结尾。
下面是一个 transition 得分矩阵的例子,包括额外添加的 START 和 END 标签。
如上表所示,我们可以发现 transition 矩阵已经学习了一些有用的约束。
- 句子中第一个单词的标签应该以“B-”或“O”开头,而不是“I-”开头**(从“START”到“I- person 或 I- organization”的 transition 分数非常低)**
- “B-label1 I-label2 I-label3 I-…”,在这个模式中,label1、label2、label3…应该是相同的命名实体标签。例如,“B-Person I-Person”是有效的,但是“B-Person I-Organization”是无效的。 (例如,从“B-Organization”到“I-Person”的分数只有 0.0003,比其他分数低很多)
- “O I-label”无效。一个被命名实体的第一个标签应该以“B-”而不是“I-”开头,换句话说,有效的模式应该是“O B-label” (同样,t_{O,I-Person} 的分数非常小)
- …
你可能想问一个关于矩阵的问题。 在哪里或如何得到 transition 矩阵?
实际上,该矩阵是 BiLSTM-CRF 模型的一个参数。在训练模型之前,可以随机初始化矩阵中的所有 transition 分数。所有的随机分数将在你的训练过程中自动更新。换句话说,CRF 层可以自己学习这些约束。我们不需要手动构建矩阵。随着训练迭代次数的增加,分数会逐渐趋于合理。
2.3 CRF 损失函数
CRF 损失函数由真实路径得分和所有可能路径的总得分组成。在所有可能的路径中,真实路径的得分应该是最高的。
例如,如果我们的数据集中有如下表所示的这些标签:
我们还是有一个 5 个单词的句子。可能的路径是:
- START B-Person B-Person B-Person B-Person B-Person END
- START B-Person I-Person B-Person B-Person B-Person END
- …
- 10) START B-Person I-Person O B-Organization O END
- …
- N) O O O O O O O
假设每条可能的路径都有一个分数 P_i,并且总共有 N 条可能的路径,所有路径的总分数是 P_total = P_1 + P_2 + … + P_N = e^{S_1} + e^{S_2} + … + e^{S_N}。(在第 2.4 节中,我们将解释如何计算 S_i 你也可以把它当作这条路径的分数。)
如果我们说第 10 条路径是真正的路径,换句话说,第 10 条路径是我们的训练数据集提供的黄金标准标签。在所有可能的路径中,得分 P_{10} 应该是百分比最大的。
在训练过程中,我们的 BiLSTM-CRF 模型的参数值将会一次又一次的更新,以保持增加真实路径的分数百分比。
LossFunction = \frac{P_{RealPath}}{P_1 + P_2 + … + P_N}
现在的问题是:1)如何定义一个路径的分数?2)如何计算所有可能路径的总分?3)当我们计算总分时,我们需要列出所有可能的路径吗?(这个问题的答案是否定的。)
在下面的小节中,我们将看到如何解决这些问题。
2.4 实际路径得分
在 2.3 节中,我们假设每条可能的路径都有一个得分 P_i,并且有 N 条可能的路径,所有路径的总得分为 P_total = P_1 + P_2 + … + P_N = e^{S_1} + e^{S_2} + … + e^{S_N}。显然,在所有可能的路径中,一定有一条是真实路径。对于这个例子来说,第 1.2 节中句子的实际路径是**“START B-Person I-Person O B-Organization O END”**。其他的是不正确的,如“START B-Person B-Organization O I-Person I-Person B-Person”。e^{S_i} 是第 i 条路径的得分。
在训练过程中,CRF 损失函数只需要两个分数:真实路径的分数和所有可能路径的总分数。 所有可能路径的分数中,真实路径分数所占的比例会逐渐增加。
计算实际路径分数 e^{S_i} 非常简单。
这里我们主要关注的是 S_i 的计算。
选取真实路径, “START B-Person I-Person O B-Organization O END”,我们以前用过,例如:
-
我们有一个 5 个单词的句子,w1,w2,w3,w4, w4,w5
-
我们增加了两个额外的单词来表示一个句子的开始和结束,w0,w6
-
S_i 由两部分组成:S_i = EmissionScore + TransitionScore
Emission 得分:
EmissionScore = x_{0,START} + x_{1,B-Person} + x_{2,I-Person} + x_{3,O} + x_{4,B-Organization} + x_{5,O} + x_{6, END}
-
x_{index,label} 是第 index 个单词被 label 标记的分数
-
这些得分 x_{1,B-Person} ; x_{2,I-Person} ; x_{3,O} ; x_{4,B-Organization} ; x_{5,O} 来自之前的 BiLSTM 输出。
-
对于 x_{0,START}, x_{6, END} 我们可以把它们设为 0。
Transition 得分:
TransitionScore = t_{START -> B-Person} + t_{B - Person -> I-Person} + t_{I-Person ->O} +t_{O->B-Orgnization} + t_{B-Orgnization ->O} + t_{O->END}
- t_{label1 -> label2} 是从 label1 到 label2 的 transition 分数
- 这些分数来自 CRF 层。换句话说,这些 transition 分数实际上是 CRF 层的参数。
综上所述,现在我们可以计算出 S_i 以及路径得分 e^{S_i}。
下一步是 如何计算所有可能路径的总分?
2.5 所有可能的路径的得分
如何逐步计算一个 toy 例子一个句子的所有可能的路径的总分。
在上一节中,我们学习了如何计算一个路径(即 e^{S_i})的标签路径得分。到目前为止,我们还有一个需要解决的问题,就是如何得到所有路径的总分(P_total = P_1 + P_2 + … + P_N = e^{S_1} + e^{S_2} + … + e^{S_N})。
衡量总分最简单的方法是:列举所有可能的路径并将它们的分数相加。是的,你可以用这种方法计算总分。然而,�
- 原文作者:知识铺
- 原文链接:https://geek.zshipu.com/post/%E4%BA%92%E8%81%94%E7%BD%91/%E4%B8%8A%E7%9A%84%E7%94%A8%E5%91%BD%E5%90%8D%E5%AE%9E%E4%BD%93%E8%AF%86%E5%88%AB%E4%BB%BB%E5%8A%A1%E6%9D%A5%E8%A7%A3%E9%87%8A%E6%8D%9F%E5%A4%B1%E5%87%BD%E6%95%B0/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com