Python深度学习

您所在的位置：网站首页 › 分词的定义和分类 › Python深度学习

Python深度学习

2024-03-16 04:00| 来源: 网络整理| 查看: 265

系列文章目录

Python深度学习-NLP实战：深度学习系列培训教程

Linux服务器软件的简单使用Linux命令的简单使用训练集、测试集、验证集的介绍及制作字向量的训练与生成文本分类之SVM模型的简单使用文本分类之FASTTEXT实现中文文本分类命名实体识别(NER)之分词与序列标注、实体识别任务简介前言

命名实体识别（Named Entity Recognition, NER）是信息抽取和信息检索中的一项重要任务，其目的是识别出文本中表示命名实体的成分，并对其进行分类。[1]而命名实体主要指文档中的人名、地名、机构名、时间等名词实体。

[1] 刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(03):329-340.

分词与序列标注任务简介

我们先从了解什么是分词和序列标注开始。分词就是找到字符串中每个词语的开头与结尾。序列标注就是输入一段字符串，输出字符串中每个字符对应的序列。通过序列标注完成分词，即把一个字符，是词的开头、结尾、还是中间部分给标出来。例如，我一定要当上海贼王，如果分词分为我/一定要/当/上海/贼王（举个栗子）对应的序列就应该是（以字为单位，下文将该格式称为token格式）：

我 S 一 B 定 I 要 E 当 S 上 B 海 E 贼 B 王 E

序列标注的标记集可以任意命名，这里我们选择的标记集是 {B, I, E, S}。其中，B代表词语开头， I代表词语中间， E代表词语结尾，S代表单字。后期涉及到实体标注时，也可以在标记中添加后缀用来区分不同实体，如：

{B-FD，I-FD，E-FD，S-FD，B-OT，I-OT，E-OT，S-OT，O}

其中，FD和OT代表两类不同的实体，O表示非实体。我们想实现的就是将一段字符串输入模型中，模型会将每个字符的标记以token格式的文件输出，这样我们就知道怎么分词了（当然还要看模型的效果）。比如：输入“我一定要当上海贼王”，模型输出标记顺序为 “SBESBEBIE ”，我们就可以得知，这个字符串应该分词为“我/一定/要/当上/海贼王”。

训练集与测试集

接下来要学习使用的模型的训练集和测试集都需要处理成token格式，如下：（模型训练格式是自己定义的，这里的规定是我们实验室用的代码里规定的）在这里插入图片描述