中文词性标注 (Part

您所在的位置：网站首页 › heroic怎么读中文标注 › 中文词性标注 (Part

中文词性标注 (Part

2024-07-17 17:22| 来源: 网络整理| 查看: 265

ChineseNLP 中文词性标注 (Part-of-speech tagging) 背景

词性标注任务是将给定句子中的每个单词从给定标签组 (tag set)中赋予一个词性标签 (part-of-speech tag)。

示例

输入:

快速的棕色狐狸跳过了懒惰的狗

输出:

[快速] VA [的] DEC [棕色] NN [狐狸] NN [跳过] VV [了] AS [懒惰] VA [的] DEC [狗] NN 标准评价指标

在联合分割标注的任务 (the joint segmentation and tagging task) 中，计算基于词级别 (word-level) 的精确率 (Precision)和召回率 (Recall)，以及F1-score.

Chinese Tree Bank Datasets. 该任务最早由Ng and Low (2004)提出。数据集由LDC发布, 需要LDC许可证 (LDC licence) 才能获取数据集。链接: https://verbs.colorado.edu/chinese/ctb.html 标签组 (tag set) 包含有33种词性标签 (POS tags). Test set # words (dev) # words (test) 主题 (Genre) CTB5 6,821 8,008 新闻评价指标代码实现: Github 结果 System F1 score Tian el. al. (2020) 96.92 Meng et. al. (2019) (Glyce + BERT) 96.61 Meng et. al. (2019) (BERT) 96.06 Shao et. al. 2017 94.38 相关资源 Train set # words 主题 (Genre) CTB5 493,935 新闻 Universal Dependencies Datasets. 数据集可免费获取 (GPL or equivalent licence) https://universaldependencies.org/ 数据集详情: Nivre et. al. (2016) 标签组 (tag set) 包含有15种词性标签 (POS tags). Test set # words (dev) # words (test) 主题 (Genre) UD Chinese 12,663 12,012 Learner essays, 新闻, 口语, Wiki百科评价指标代码实现: https://github.com/yanshao9798/tagger/blob/master/evaluation.py 结果 System F1 score Meng et. al. (2019) (Glyce + BERT) 96.14 Tian el. al. (2020) 95.69 Meng et. al. (2019) (BERT) 94.79 Shao et. al. (2017) 89.75 相关资源 Train set # words 主题 (Genre) UD Chinese 98,608 Learner essays, 新闻, 口语, Wiki百科

建议? 修改? 请发邮件到 [email protected]

【本文地址】

中文词性标注 (Part

中文词性标注 (Part

今日新闻

推荐新闻