【R语言】结巴分词与词性提取（以“提取知乎问题标题的频繁词前100个形容词”实战为例）（3月25日学习笔记）

您所在的位置：网站首页 › more有哪些词性 › 【R语言】结巴分词与词性提取（以“提取知乎问题标题的频繁词前100个形容词”实战为例）（3月25日学习笔记）

【R语言】结巴分词与词性提取（以“提取知乎问题标题的频繁词前100个形容词”实战为例）（3月25日学习笔记）

2024-06-21 07:41| 来源: 网络整理| 查看: 265

以下内容仅为学习笔记，如表述有误，欢迎批评指正。这一次的作业是基于本人3月24日内容的进一步处理，老师布置的题目为这一次问题的难点在于词性分类，本文将以此题为例，介绍如何使用结巴分词对中文词语词性进行分类。

0.包的选取

中文分词必不可少的包：jieba

library(jiebaR) library(jiebaRD)#用于分词

作图包我们选择

library(ggplot2)#用于作图

读取数据可以不额外导入包，使用基础的read.csv函数，但是这样读取效果很慢，建议采用read_csv函数，这一点在我的上一篇笔记中提到过

这个函数时读csv文件时能够把所有character型的变量读成factor型，读取大数据的时候效率更高

类似的函数还有data.table包的fread()函数，这两个函数的异同可以在dingdingxia前辈的博文中阅读

说回read_csv函数，这个函数需要

library(readr)#用于读取数据

此外还需要

library(tidyverse)#enframe函数需要用到 library(dplyr)#用于使用过滤函数filter()

这两个包的使用将在下文提及

1.数据读入 # 工作路径 setwd("D://1Study//R//CH05") getwd() # 读入数据 data_titles = read_csv("train_data.csv",col_names = T) #col_names = T也就是.csv方法中的header=T data_titles #另存数据 question_titles = data.frame(data_titles[,2])#另存为数据，只保留标题一栏，使不破坏原数据

当然，col_names默认赋值就是T，不写也可以

2.中文分词与词性标注 seg

【本文地址】

【R语言】结巴分词与词性提取（以“提取知乎问题标题的频繁词前100个形容词”实战为例）（3月25日学习笔记）

【R语言】结巴分词与词性提取（以“提取知乎问题标题的频繁词前100个形容词”实战为例）（3月25日学习笔记）

今日新闻

推荐新闻