Python真是很奇妙的编程工具,在自然语言处理上,python也是很好的工具。现在想对美国总统历年来的就职演讲进行分析,看下美国总统就职演讲中,核心关键词的出现频率,是怎么样,也想从总体上了解下,python进行语义分析的基本做法。
前提:python安装与操作环境(百度一下就知道),安装装Python 的NumPy的Matplotlib 包。方法(百度一下,建议先安装pip,搭建环境变量,python中执行pip install numpy命令)
语料库下载:
Python写入如下命令:
>>> import nltk
>>> nltk.download()
语料库使用分析:
Python中写入:
>>> from nltk.book import *
可见语料库中book:
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908
选择text4: Inaugural Address Corpus,为美国总统就职演讲语料库,在python中
执行如下命令:
>>>text4.dispersion_plot([“citizens”, “democracy”, “freedom”, “duties”, “America”]),得到了这几个词citizens”, “democracy”, “freedom”, “duties”, “America”的分布频率,如下:
从语义分析的结果看,耐人寻味的是美国总统就职演讲中,更为强调的是公民、职责和自由。
作者: 远景顾问
Business consultant, focus on improving people, process and performance.
查看远景顾问的所有文章
|