【R语言】结巴分词与词性提取(以“提取知乎问题标题的频繁词前100个形容词”实战为例)(3月25日学习笔记)

您所在的位置:网站首页 more有哪些词性 【R语言】结巴分词与词性提取(以“提取知乎问题标题的频繁词前100个形容词”实战为例)(3月25日学习笔记)

【R语言】结巴分词与词性提取(以“提取知乎问题标题的频繁词前100个形容词”实战为例)(3月25日学习笔记)

2024-06-21 07:41| 来源: 网络整理| 查看: 265

以下内容仅为学习笔记,如表述有误,欢迎批评指正。 这一次的作业是基于本人3月24日内容的进一步处理,老师布置的题目为 题目 这一次问题的难点在于词性分类,本文将以此题为例,介绍如何使用结巴分词对中文词语词性进行分类。

0.包的选取

中文分词必不可少的包:jieba

library(jiebaR) library(jiebaRD)#用于分词

作图包我们选择

library(ggplot2)#用于作图

读取数据可以不额外导入包,使用基础的read.csv函数,但是这样读取效果很慢,建议采用read_csv函数,这一点在我的上一篇笔记中提到过

这个函数时读csv文件时能够把所有character型的变量读成factor型,读取大数据的时候效率更高

类似的函数还有data.table包的fread()函数,这两个函数的异同可以在dingdingxia前辈的博文中阅读

说回read_csv函数,这个函数需要

library(readr)#用于读取数据

此外还需要

library(tidyverse)#enframe函数需要用到 library(dplyr)#用于使用过滤函数filter()

这两个包的使用将在下文提及

1.数据读入 # 工作路径 setwd("D://1Study//R//CH05") getwd() # 读入数据 data_titles = read_csv("train_data.csv",col_names = T) #col_names = T也就是.csv方法中的header=T data_titles #另存数据 question_titles = data.frame(data_titles[,2])#另存为数据,只保留标题一栏,使不破坏原数据

当然,col_names默认赋值就是T,不写也可以

2.中文分词与词性标注 seg


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3