【R语言】结巴分词与词性提取(以“提取知乎问题标题的频繁词前100个形容词”实战为例)(3月25日学习笔记) |
您所在的位置:网站首页 › more有哪些词性 › 【R语言】结巴分词与词性提取(以“提取知乎问题标题的频繁词前100个形容词”实战为例)(3月25日学习笔记) |
以下内容仅为学习笔记,如表述有误,欢迎批评指正。 这一次的作业是基于本人3月24日内容的进一步处理,老师布置的题目为 这一次问题的难点在于词性分类,本文将以此题为例,介绍如何使用结巴分词对中文词语词性进行分类。 0.包的选取中文分词必不可少的包:jieba library(jiebaR) library(jiebaRD)#用于分词作图包我们选择 library(ggplot2)#用于作图读取数据可以不额外导入包,使用基础的read.csv函数,但是这样读取效果很慢,建议采用read_csv函数,这一点在我的上一篇笔记中提到过 这个函数时读csv文件时能够把所有character型的变量读成factor型,读取大数据的时候效率更高 类似的函数还有data.table包的fread()函数,这两个函数的异同可以在dingdingxia前辈的博文中阅读 说回read_csv函数,这个函数需要 library(readr)#用于读取数据此外还需要 library(tidyverse)#enframe函数需要用到 library(dplyr)#用于使用过滤函数filter()这两个包的使用将在下文提及 1.数据读入 # 工作路径 setwd("D://1Study//R//CH05") getwd() # 读入数据 data_titles = read_csv("train_data.csv",col_names = T) #col_names = T也就是.csv方法中的header=T data_titles #另存数据 question_titles = data.frame(data_titles[,2])#另存为数据,只保留标题一栏,使不破坏原数据当然,col_names默认赋值就是T,不写也可以 2.中文分词与词性标注 seg |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |