训练GloVe中文词向量

您所在的位置：网站首页 › glove中文谐音 › 训练GloVe中文词向量

训练GloVe中文词向量

#训练GloVe中文词向量| 来源: 网络整理| 查看: 265

准备语料

准备好自己的语料，保存为txt，每行一个句子或一段话，注意要分好词。

准备源码

从GitHub下载代码，https://github.com/stanfordnlp/GloVe 将语料corpus.txt放入到Glove的主文件夹下。

修改bash

打开demo.sh，修改相应的内容

因为demo默认是下载网上的语料来训练的，因此如果要训练自己的语料，需要注释掉在这里插入图片描述

修改参数设置，将CORPUS设置成语料的名字执行bash文件

进入到主文件夹下

make

bash demo.sh

注意，如果训练数据较大，则训练时间较长，那么建议使用nohup来运行程序 nohup bash demo.sh >output.txt 2>&1 & 坐等训练，最后会得到vectors.txt 以及其他的相应的文件。如果要用gensim的word2ve load进来，那么需要在vectors.txt的第一行加上vacob_size vector_size，第一个数指明一共有多少个向量，第二个数指明每个向量有多少维。

6.加载使用巽寮的词向量

from gensim.models import Word2Vec model = Word2Vec.load_word2vec_format(‘vectors.txt’, binary=False)

接下来的使用就和word2vec一样

参考

https://www.cnblogs.com/echo-cheng/p/8561171.html

【本文地址】

训练GloVe中文词向量

训练GloVe中文词向量

今日新闻

推荐新闻