机器学习实战教程(五):朴素贝叶斯之新浪新闻分类器

您所在的位置:网站首页 朴素贝叶斯分类器实现 机器学习实战教程(五):朴素贝叶斯之新浪新闻分类器

机器学习实战教程(五):朴素贝叶斯之新浪新闻分类器

2022-05-13 15:19| 来源: 网络整理| 查看: 265

摘要

上篇文章机器学习实战教程(四):朴素贝叶斯基础篇之言论过滤器讲解了朴素贝叶斯的基础知识。本篇文章将在此基础上进行扩展,你将看到以下内容:拉普拉斯平滑、垃圾邮件过滤(Python3)、新浪新闻分类(sklearn)

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

一、前言

上篇文章机器学习实战教程(四):朴素贝叶斯基础篇之言论过滤器讲解了朴素贝叶斯的基础知识。本篇文章将在此基础上进行扩展,你将看到以下内容:

拉普拉斯平滑垃圾邮件过滤(Python3)新浪新闻分类(sklearn)二、朴素贝叶斯改进之拉普拉斯平滑

上篇文章提到过,算法存在一定的问题,需要进行改进。那么需要改进的地方在哪里呢?利用贝叶斯分类器对文档进行分类时,要计算多个概率的乘积以获得文档属于某个类别的概率,即计算p(w0|1)p(w1|1)p(w2|1)。如果其中有一个概率值为0,那么最后的成绩也为0。我们拿出上一篇文章的截图。

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

从上图可以看出,在计算的时候已经出现了概率为0的情况。如果新实例文本,包含这种概率为0的分词,那么最终的文本属于某个类别的概率也就是0了。显然,这样是不合理的,为了降低这种影响,可以将所有词的出现数初始化为1,并将分母初始化为2。这种做法就叫做拉普拉斯平滑(Laplace Smoothing)又被称为加1平滑,是比较常用的平滑方法,它就是为了解决0概率问题。

除此之外,另外一个遇到的问题就是下溢出,这是由于太多很小的数相乘造成的。学过数学的人都知道,两个小数相乘,越乘越小,这样就造成了下溢出。在程序中,在相应小数位置进行四舍五入,计算结果可能就变成0了。为了解决这个问题,对乘积结果取自然对数。通过求对数可以避免下溢出或者浮点数舍入导致的错误。同时,采用自然对数进行处理不会有任何损失。下图给出函数f(x)和ln(f(x))的曲线。

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

检查这两条曲线,就会发现它们在相同区域内同时增加或者减少,并且在相同点上取到极值。它们的取值虽然不同,但不影响最终结果。因此我们可以对上篇文章的trainNB0(trainMatrix, trainCategory)函数进行更改,修改如下:

Python123456789101112131415161718192021222324252627282930313233"""函数说明:朴素贝叶斯分类器训练函数 Parameters:    trainMatrix - 训练文档矩阵,即setOfWords2Vec返回的returnVec构成的矩阵    trainCategory - 训练类别标签向量,即loadDataSet返回的classVecReturns:    p0Vect - 非侮辱类的条件概率数组    p1Vect - 侮辱类的条件概率数组    pAbusive - 文档属于侮辱类的概率Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-12"""def trainNB0(trainMatrix,trainCategory):    numTrainDocs = len(trainMatrix)                            #计算训练的文档数目    numWords = len(trainMatrix[0])                            #计算每篇文档的词条数    pAbusive = sum(trainCategory)/float(numTrainDocs)        #文档属于侮辱类的概率    p0Num = np.ones(numWords); p1Num = np.ones(numWords)    #创建numpy.ones数组,词条出现数初始化为1,拉普拉斯平滑    p0Denom = 2.0; p1Denom = 2.0                            #分母初始化为2,拉普拉斯平滑    for i in range(numTrainDocs):        if trainCategory[i] == 1:                            #统计属于侮辱类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)···            p1Num += trainMatrix[i]            p1Denom += sum(trainMatrix[i])        else:                                                #统计属于非侮辱类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)···            p0Num += trainMatrix[i]            p0Denom += sum(trainMatrix[i])    p1Vect = np.log(p1Num/p1Denom)                            #取对数,防止下溢出             p0Vect = np.log(p0Num/p0Denom)             return p0Vect,p1Vect,pAbusive                            #返回属于侮辱类的条件概率数组,属于非侮辱类的条件概率数组,文档属于侮辱类的概率

运行代码,就可以得到如下结果:

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

瞧,这样我们得到的结果就没有问题了,不存在0概率。当然除此之外,我们还需要对代码进行修改classifyNB(vec2Classify, p0Vec, p1Vec, pClass1)函数,修改如下:

Python12345678910111213141516171819202122232425"""函数说明:朴素贝叶斯分类器分类函数 Parameters:    vec2Classify - 待分类的词条数组    p0Vec - 非侮辱类的条件概率数组    p1Vec -侮辱类的条件概率数组    pClass1 - 文档属于侮辱类的概率Returns:    0 - 属于非侮辱类    1 - 属于侮辱类Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-12"""def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)        #对应元素相乘。logA * B = logA + logB,所以这里加上log(pClass1)    p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)    if p1 > p0:        return 1    else:        return 0

为啥这么改?因为取自然对数了。logab = loga + logb。

这样,我们的朴素贝叶斯分类器就改进完毕了。

三、朴素贝叶斯之过滤垃圾邮件

在上篇文章那个简单的例子中,我们引入了字符串列表。使用朴素贝叶斯解决一些现实生活中的问题时,需要先从文本内容得到字符串列表,然后生成词向量。下面这个例子中,我们将了解朴素贝叶斯的一个最著名的应用:电子邮件垃圾过滤。首先看一下使用朴素贝叶斯对电子邮件进行分类的步骤:

收集数据:提供文本文件。准备数据:将文本文件解析成词条向量。分析数据:检查词条确保解析的正确性。训练算法:使用我们之前建立的trainNB0()函数。测试算法:使用classifyNB(),并构建一个新的测试函数来计算文档集的错误率。使用算法:构建一个完整的程序对一组文档进行分类,将错分的文档输出到屏幕上。1、收集数据

数据我已经为大家准备好了,可以在我的Github上下载: 数据集下载

有两个文件夹ham和spam,spam文件下的txt文件为垃圾邮件。

2、准备数据

对于英文文本,我们可以以非字母、非数字作为符号进行切分,使用split函数即可。编写代码如下:

Python12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152# -*- coding: UTF-8 -*-import re """函数说明:接收一个大字符串并将其解析为字符串列表 Parameters:    无Returns:    无Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-14"""def textParse(bigString):                                                   #将字符串转换为字符列表    listOfTokens = re.split(r'\W+', bigString)                              #将特殊符号作为切分标志进行字符串切分,即非字母、非数字    return [tok.lower() for tok in listOfTokens if len(tok) > 2]            #除了单个字母,例如大写的I,其它单词变成小写 """函数说明:将切分的实验样本词条整理成不重复的词条列表,也就是词汇表 Parameters:    dataSet - 整理的样本数据集Returns:    vocabSet - 返回不重复的词条列表,也就是词汇表Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-11"""def createVocabList(dataSet):    vocabSet = set([])                      #创建一个空的不重复列表    for document in dataSet:                       vocabSet = vocabSet | set(document) #取并集    return list(vocabSet) if __name__ == '__main__':    docList = []; classList = []    for i in range(1, 26):                                                  #遍历25个txt文件        wordList = textParse(open('email/spam/%d.txt' % i, 'r').read())     #读取每个垃圾邮件,并字符串转换成字符串列表        docList.append(wordList)        classList.append(1)                                                 #标记垃圾邮件,1表示垃圾文件        wordList = textParse(open('email/ham/%d.txt' % i, 'r').read())      #读取每个非垃圾邮件,并字符串转换成字符串列表        docList.append(wordList)        classList.append(0)                                                 #标记非垃圾邮件,1表示垃圾文件       vocabList = createVocabList(docList)                                    #创建词汇表,不重复    print(vocabList)

这样我们就得到了词汇表,结果如下图所示:

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

根据词汇表,我们就可以将每个文本向量化。我们将数据集分为训练集和测试集,使用交叉验证的方式测试朴素贝叶斯分类器的准确性。编写代码如下:

Python123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196# -*- coding: UTF-8 -*-import numpy as npimport randomimport re """函数说明:将切分的实验样本词条整理成不重复的词条列表,也就是词汇表 Parameters:    dataSet - 整理的样本数据集Returns:    vocabSet - 返回不重复的词条列表,也就是词汇表Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-11"""def createVocabList(dataSet):    vocabSet = set([])                      #创建一个空的不重复列表    for document in dataSet:                       vocabSet = vocabSet | set(document) #取并集    return list(vocabSet) """函数说明:根据vocabList词汇表,将inputSet向量化,向量的每个元素为1或0 Parameters:    vocabList - createVocabList返回的列表    inputSet - 切分的词条列表Returns:    returnVec - 文档向量,词集模型Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-11"""def setOfWords2Vec(vocabList, inputSet):    returnVec = [0] * len(vocabList)                                    #创建一个其中所含元素都为0的向量    for word in inputSet:                                                #遍历每个词条        if word in vocabList:                                            #如果词条存在于词汇表中,则置1            returnVec[vocabList.index(word)] = 1        else: print("the word: %s is not in my Vocabulary!" % word)    return returnVec                                                    #返回文档向量  """函数说明:根据vocabList词汇表,构建词袋模型 Parameters:    vocabList - createVocabList返回的列表    inputSet - 切分的词条列表Returns:    returnVec - 文档向量,词袋模型Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-14"""def bagOfWords2VecMN(vocabList, inputSet):    returnVec = [0]*len(vocabList)                                        #创建一个其中所含元素都为0的向量    for word in inputSet:                                                #遍历每个词条        if word in vocabList:                                            #如果词条存在于词汇表中,则计数加一            returnVec[vocabList.index(word)] += 1    return returnVec                                                    #返回词袋模型 """函数说明:朴素贝叶斯分类器训练函数 Parameters:    trainMatrix - 训练文档矩阵,即setOfWords2Vec返回的returnVec构成的矩阵    trainCategory - 训练类别标签向量,即loadDataSet返回的classVecReturns:    p0Vect - 非侮辱类的条件概率数组    p1Vect - 侮辱类的条件概率数组    pAbusive - 文档属于侮辱类的概率Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-12"""def trainNB0(trainMatrix,trainCategory):    numTrainDocs = len(trainMatrix)                            #计算训练的文档数目    numWords = len(trainMatrix[0])                            #计算每篇文档的词条数    pAbusive = sum(trainCategory)/float(numTrainDocs)        #文档属于侮辱类的概率    p0Num = np.ones(numWords); p1Num = np.ones(numWords)    #创建numpy.ones数组,词条出现数初始化为1,拉普拉斯平滑    p0Denom = 2.0; p1Denom = 2.0                            #分母初始化为2,拉普拉斯平滑    for i in range(numTrainDocs):        if trainCategory[i] == 1:                            #统计属于侮辱类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)···            p1Num += trainMatrix[i]            p1Denom += sum(trainMatrix[i])        else:                                                #统计属于非侮辱类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)···            p0Num += trainMatrix[i]            p0Denom += sum(trainMatrix[i])    p1Vect = np.log(p1Num/p1Denom)                            #取对数,防止下溢出             p0Vect = np.log(p0Num/p0Denom)             return p0Vect,p1Vect,pAbusive                            #返回属于侮辱类的条件概率数组,属于非侮辱类的条件概率数组,文档属于侮辱类的概率 """函数说明:朴素贝叶斯分类器分类函数 Parameters:    vec2Classify - 待分类的词条数组    p0Vec - 非侮辱类的条件概率数组    p1Vec -侮辱类的条件概率数组    pClass1 - 文档属于侮辱类的概率Returns:    0 - 属于非侮辱类    1 - 属于侮辱类Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-12"""def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)        #对应元素相乘。logA * B = logA + logB,所以这里加上log(pClass1)    p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)    if p1 > p0:        return 1    else:        return 0 """函数说明:接收一个大字符串并将其解析为字符串列表 Parameters:    无Returns:    无Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-14"""def textParse(bigString):                                                   #将字符串转换为字符列表    listOfTokens = re.split(r'\W+', bigString)                              #将特殊符号作为切分标志进行字符串切分,即非字母、非数字    return [tok.lower() for tok in listOfTokens if len(tok) > 2]            #除了单个字母,例如大写的I,其它单词变成小写 """函数说明:测试朴素贝叶斯分类器 Parameters:    无Returns:    无Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-14"""def spamTest():    docList = []; classList = []; fullText = []    for i in range(1, 26):                                                  #遍历25个txt文件        wordList = textParse(open('email/spam/%d.txt' % i, 'r').read())     #读取每个垃圾邮件,并字符串转换成字符串列表        docList.append(wordList)        fullText.append(wordList)        classList.append(1)                                                 #标记垃圾邮件,1表示垃圾文件        wordList = textParse(open('email/ham/%d.txt' % i, 'r').read())      #读取每个非垃圾邮件,并字符串转换成字符串列表        docList.append(wordList)        fullText.append(wordList)        classList.append(0)                                                 #标记非垃圾邮件,1表示垃圾文件       vocabList = createVocabList(docList)                                    #创建词汇表,不重复    trainingSet = list(range(50)); testSet = []                             #创建存储训练集的索引值的列表和测试集的索引值的列表                           for i in range(10):                                                     #从50个邮件中,随机挑选出40个作为训练集,10个做测试集        randIndex = int(random.uniform(0, len(trainingSet)))                #随机选取索索引值        testSet.append(trainingSet[randIndex])                              #添加测试集的索引值        del(trainingSet[randIndex])                                         #在训练集列表中删除添加到测试集的索引值    trainMat = []; trainClasses = []                                        #创建训练集矩阵和训练集类别标签系向量                 for docIndex in trainingSet:                                            #遍历训练集        trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))       #将生成的词集模型添加到训练矩阵中        trainClasses.append(classList[docIndex])                            #将类别添加到训练集类别标签系向量中    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))  #训练朴素贝叶斯模型    errorCount = 0                                                          #错误分类计数    for docIndex in testSet:                                                #遍历测试集        wordVector = setOfWords2Vec(vocabList, docList[docIndex])           #测试集的词集模型        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:    #如果分类错误            errorCount += 1                                                 #错误计数加1            print("分类错误的测试集:",docList[docIndex])    print('错误率:%.2f%%' % (float(errorCount) / len(testSet) * 100))  if __name__ == '__main__':    spamTest()

运行结果如下:

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

函数spamTest()会输出在10封随机选择的电子邮件上的分类错误概率。既然这些电子邮件是随机选择的,所以每次的输出结果可能有些差别。如果发现错误的话,函数会输出错误的文档的此表,这样就可以了解到底是哪篇文档发生了错误。如果想要更好地估计错误率,那么就应该将上述过程重复多次,比如说10次,然后求平均值。相比之下,将垃圾邮件误判为正常邮件要比将正常邮件归为垃圾邮件好。为了避免错误,有多种方式可以用来修正分类器,这些内容会在后续文章中进行讨论。

这部分代码获取:代码获取

四、朴素贝叶斯之新浪新闻分类(Sklearn)1、中文语句切分

考虑一个问题,英文的语句可以通过非字母和非数字进行切分,但是汉语句子呢?就比如我打的这一堆字,该如何进行切分呢?我们自己写个规则?

幸运地是,这部分的工作不需要我们自己做了,可以直接使用第三方分词组件,即jieba,没错就是"结巴"。

jieba已经兼容Python2和Python3,使用如下指令直接安装即可:

Shell1pip3 install jieba

Python中文分词组件使用简单:

民间教程:https://www.oschina.net/p/jieba官方教程:https://github.com/fxsjy/jieba

新闻分类数据集我也已经准备好,可以到我的Github进行下载:数据集下载

数据集已经做好分类,分文件夹保存,分类结果如下:

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

数据集已经准备好,接下来,让我们直接进入正题。切分中文语句,编写如下代码:

Python12345678910111213141516171819202122232425262728293031323334# -*- coding: UTF-8 -*-import osimport jieba def TextProcessing(folder_path):    folder_list = os.listdir(folder_path)                        #查看folder_path下的文件    data_list = []                                                #训练集    class_list = []     #遍历每个子文件夹    for folder in folder_list:        new_folder_path = os.path.join(folder_path, folder)        #根据子文件夹,生成新的路径        files = os.listdir(new_folder_path)                        #存放子文件夹下的txt文件的列表         j = 1        #遍历每个txt文件        for file in files:            if j > 100:                                            #每类txt样本数最多100个                break            with open(os.path.join(new_folder_path, file), 'r', encoding = 'utf-8') as f:    #打开txt文件                raw = f.read()             word_cut = jieba.cut(raw, cut_all = False)            #精简模式,返回一个可迭代的generator            word_list = list(word_cut)                            #generator转换为list             data_list.append(word_list)            class_list.append(folder)            j += 1    print(data_list)    print(class_list)if __name__ == '__main__':    #文本预处理    folder_path = './SogouC/Sample'                #训练集存放地址    TextProcessing(folder_path)

代码运行结果如下所示,可以看到,我们已经顺利将每个文本进行切分,并进行了类别标记。

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

2、文本特征选择

我们将所有文本分成训练集和测试集,并对训练集中的所有单词进行词频统计,并按降序排序。也就是将出现次数多的词语在前,出现次数少的词语在后进行排序。编写代码如下:

Python12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576# -*- coding: UTF-8 -*-import osimport randomimport jieba """函数说明:中文文本处理 Parameters:    folder_path - 文本存放的路径    test_size - 测试集占比,默认占所有数据集的百分之20Returns:    all_words_list - 按词频降序排序的训练集列表    train_data_list - 训练集列表    test_data_list - 测试集列表    train_class_list - 训练集标签列表    test_class_list - 测试集标签列表Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-22"""def TextProcessing(folder_path, test_size = 0.2):    folder_list = os.listdir(folder_path)                        #查看folder_path下的文件    data_list = []                                                #数据集数据    class_list = []                                                #数据集类别     #遍历每个子文件夹    for folder in folder_list:        new_folder_path = os.path.join(folder_path, folder)        #根据子文件夹,生成新的路径        files = os.listdir(new_folder_path)                        #存放子文件夹下的txt文件的列表         j = 1        #遍历每个txt文件        for file in files:            if j > 100:                                            #每类txt样本数最多100个                break            with open(os.path.join(new_folder_path, file), 'r', encoding = 'utf-8') as f:    #打开txt文件                raw = f.read()             word_cut = jieba.cut(raw, cut_all = False)            #精简模式,返回一个可迭代的generator            word_list = list(word_cut)                            #generator转换为list             data_list.append(word_list)                            #添加数据集数据            class_list.append(folder)                            #添加数据集类别            j += 1     data_class_list = list(zip(data_list, class_list))            #zip压缩合并,将数据与标签对应压缩    random.shuffle(data_class_list)                                #将data_class_list乱序    index = int(len(data_class_list) * test_size) + 1            #训练集和测试集切分的索引值    train_list = data_class_list[index:]                        #训练集    test_list = data_class_list[:index]                            #测试集    train_data_list, train_class_list = zip(*train_list)        #训练集解压缩    test_data_list, test_class_list = zip(*test_list)            #测试集解压缩     all_words_dict = {}                                            #统计训练集词频    for word_list in train_data_list:        for word in word_list:            if word in all_words_dict.keys():                all_words_dict[word] += 1            else:                all_words_dict[word] = 1     #根据键的值倒序排序    all_words_tuple_list = sorted(all_words_dict.items(), key = lambda f:f[1], reverse = True)    all_words_list, all_words_nums = zip(*all_words_tuple_list)    #解压缩    all_words_list = list(all_words_list)                        #转换成列表    return all_words_list, train_data_list, test_data_list, train_class_list, test_class_list if __name__ == '__main__':    #文本预处理    folder_path = './SogouC/Sample'                #训练集存放地址    all_words_list, train_data_list, test_data_list, train_class_list, test_class_list = TextProcessing(folder_path, test_size=0.2)    print(all_words_list)

all_words_list就是将所有训练集的切分结果通过词频降序排列构成的单词合集。观察一下打印结果,不难发现,这里包含了很多标点符号,很显然,这些标点符号是不能作为新闻分类的特征的。总不能说,应为这个文章逗号多,所以它是xx类新闻吧?为了降低这些高频的符号对分类结果的影响,我们应该怎么做呢?答曰:抛弃他们! 除了这些,还有"在","了"这样对新闻分类无关痛痒的词。并且还有一些数字,数字显然也不能作为分类新闻的特征。所以要消除它们对分类结果的影响,我们可以定制一个规则。

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

一个简单的规则可以这样制定:首先去掉高频词,至于去掉多少个高频词,我们可以通过观察去掉高频词个数和最终检测准确率的关系来确定。除此之外,去除数字,不把数字作为分类特征。同时,去除一些特定的词语,比如:"的","一","在","不","当然","怎么"这类的对新闻分类无影响的介词、代词、连词。怎么去除这些词呢?可以使用已经整理好的stopwords_cn.txt文本。下载地址:点我下载

这个文件是这个样子的:

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

所以我们可以根据这个文档,将这些单词去除,不作为分类的特征。我们先去除前100个高频词汇,然后编写代码如下:

Python123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133# -*- coding: UTF-8 -*-import osimport randomimport jieba """函数说明:中文文本处理 Parameters:    folder_path - 文本存放的路径    test_size - 测试集占比,默认占所有数据集的百分之20Returns:    all_words_list - 按词频降序排序的训练集列表    train_data_list - 训练集列表    test_data_list - 测试集列表    train_class_list - 训练集标签列表    test_class_list - 测试集标签列表Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-22"""def TextProcessing(folder_path, test_size = 0.2):    folder_list = os.listdir(folder_path)                        #查看folder_path下的文件    data_list = []                                                #数据集数据    class_list = []                                                #数据集类别     #遍历每个子文件夹    for folder in folder_list:        new_folder_path = os.path.join(folder_path, folder)        #根据子文件夹,生成新的路径        files = os.listdir(new_folder_path)                        #存放子文件夹下的txt文件的列表         j = 1        #遍历每个txt文件        for file in files:            if j > 100:                                            #每类txt样本数最多100个                break            with open(os.path.join(new_folder_path, file), 'r', encoding = 'utf-8') as f:    #打开txt文件                raw = f.read()             word_cut = jieba.cut(raw, cut_all = False)            #精简模式,返回一个可迭代的generator            word_list = list(word_cut)                            #generator转换为list             data_list.append(word_list)                            #添加数据集数据            class_list.append(folder)                            #添加数据集类别            j += 1     data_class_list = list(zip(data_list, class_list))            #zip压缩合并,将数据与标签对应压缩    random.shuffle(data_class_list)                                #将data_class_list乱序    index = int(len(data_class_list) * test_size) + 1            #训练集和测试集切分的索引值    train_list = data_class_list[index:]                        #训练集    test_list = data_class_list[:index]                            #测试集    train_data_list, train_class_list = zip(*train_list)        #训练集解压缩    test_data_list, test_class_list = zip(*test_list)            #测试集解压缩     all_words_dict = {}                                            #统计训练集词频    for word_list in train_data_list:        for word in word_list:            if word in all_words_dict.keys():                all_words_dict[word] += 1            else:                all_words_dict[word] = 1     #根据键的值倒序排序    all_words_tuple_list = sorted(all_words_dict.items(), key = lambda f:f[1], reverse = True)    all_words_list, all_words_nums = zip(*all_words_tuple_list)    #解压缩    all_words_list = list(all_words_list)                        #转换成列表    return all_words_list, train_data_list, test_data_list, train_class_list, test_class_list """函数说明:读取文件里的内容,并去重 Parameters:    words_file - 文件路径Returns:    words_set - 读取的内容的set集合Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-22"""def MakeWordsSet(words_file):    words_set = set()                                            #创建set集合    with open(words_file, 'r', encoding = 'utf-8') as f:        #打开文件        for line in f.readlines():                                #一行一行读取            word = line.strip()                                    #去回车            if len(word) > 0:                                    #有文本,则添加到words_set中                words_set.add(word)                                   return words_set                                             #返回处理结果 """函数说明:文本特征选取 Parameters:    all_words_list - 训练集所有文本列表    deleteN - 删除词频最高的deleteN个词    stopwords_set - 指定的结束语Returns:    feature_words - 特征集Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-22"""def words_dict(all_words_list, deleteN, stopwords_set = set()):    feature_words = []                            #特征列表    n = 1    for t in range(deleteN, len(all_words_list), 1):        if n > 1000:                            #feature_words的维度为1000            break                                       #如果这个词不是数字,并且不是指定的结束语,并且单词长度大于1小于5,那么这个词就可以作为特征词        if not all_words_list[t].isdigit() and all_words_list[t] not in stopwords_set and 1 100:                                            #每类txt样本数最多100个                break            with open(os.path.join(new_folder_path, file), 'r', encoding = 'utf-8') as f:    #打开txt文件                raw = f.read()             word_cut = jieba.cut(raw, cut_all = False)            #精简模式,返回一个可迭代的generator            word_list = list(word_cut)                            #generator转换为list             data_list.append(word_list)                            #添加数据集数据            class_list.append(folder)                            #添加数据集类别            j += 1     data_class_list = list(zip(data_list, class_list))            #zip压缩合并,将数据与标签对应压缩    random.shuffle(data_class_list)                                #将data_class_list乱序    index = int(len(data_class_list) * test_size) + 1            #训练集和测试集切分的索引值    train_list = data_class_list[index:]                        #训练集    test_list = data_class_list[:index]                            #测试集    train_data_list, train_class_list = zip(*train_list)        #训练集解压缩    test_data_list, test_class_list = zip(*test_list)            #测试集解压缩     all_words_dict = {}                                            #统计训练集词频    for word_list in train_data_list:        for word in word_list:            if word in all_words_dict.keys():                all_words_dict[word] += 1            else:                all_words_dict[word] = 1     #根据键的值倒序排序    all_words_tuple_list = sorted(all_words_dict.items(), key = lambda f:f[1], reverse = True)    all_words_list, all_words_nums = zip(*all_words_tuple_list)    #解压缩    all_words_list = list(all_words_list)                        #转换成列表    return all_words_list, train_data_list, test_data_list, train_class_list, test_class_list """函数说明:读取文件里的内容,并去重 Parameters:    words_file - 文件路径Returns:    words_set - 读取的内容的set集合Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-22"""def MakeWordsSet(words_file):    words_set = set()                                            #创建set集合    with open(words_file, 'r', encoding = 'utf-8') as f:        #打开文件        for line in f.readlines():                                #一行一行读取            word = line.strip()                                    #去回车            if len(word) > 0:                                    #有文本,则添加到words_set中                words_set.add(word)                                   return words_set                                             #返回处理结果 """函数说明:根据feature_words将文本向量化 Parameters:    train_data_list - 训练集    test_data_list - 测试集    feature_words - 特征集Returns:    train_feature_list - 训练集向量化列表    test_feature_list - 测试集向量化列表Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-22"""def TextFeatures(train_data_list, test_data_list, feature_words):    def text_features(text, feature_words):                        #出现在特征集中,则置1                                                       text_words = set(text)        features = [1 if word in text_words else 0 for word in feature_words]        return features    train_feature_list = [text_features(text, feature_words) for text in train_data_list]    test_feature_list = [text_features(text, feature_words) for text in test_data_list]    return train_feature_list, test_feature_list                #返回结果  """函数说明:文本特征选取 Parameters:    all_words_list - 训练集所有文本列表    deleteN - 删除词频最高的deleteN个词    stopwords_set - 指定的结束语Returns:    feature_words - 特征集Author:    Jack CuiBlog:    http://blog.csdn.net/c406495762Modify:    2017-08-22"""def words_dict(all_words_list, deleteN, stopwords_set = set()):    feature_words = []                            #特征列表    n = 1    for t in range(deleteN, len(all_words_list), 1):        if n > 1000:                            #feature_words的维度为1000            break                                       #如果这个词不是数字,并且不是指定的结束语,并且单词长度大于1小于5,那么这个词就可以作为特征词        if not all_words_list[t].isdigit() and all_words_list[t] not in stopwords_set and 1


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3