[NLP]训练Word2vec的JAVA版本
2017-03-25 11:44
369 查看
前言
word2vec是什么在这里就不再赘述了,简单的说就是将词组转换成向量,完成词组的数值化表示。本文的目标是完成word2vec的java版本的训练。系统系统环境为ubuntu 14.04 64位。过程
1.命令行执行:
git clone https://github.com/NLPchina/Word2VEC_java.git cd Word2VEC_java
2.
在Word2VEC_java目录下新建library目录,然后下载语料到这个路径下。3.
修改Word2VEC_java/src/main/java/com/ansj/vec/Learn.java文件中的main函数为:Learn learn = new Learn(); long start = System.currentTimeMillis(); learn.learnFile(new File("library/xh.txt")); System.out.println("use time " + (System.currentTimeMillis() - start)); learn.saveModel(new File("library/javaVector.model"));
4.训练
在文件根目录执行:export MAVEN_OPTS="-Xms12000m -Xmx12000m -XX:MaxPermSize=1024m"//防止出现内存溢出 mvn -X compile mvn -X clean install exec:java -Dexec.mainClass="com.ansj.vec.Learn"
执行之后可以看到如下输出:
alpha:0.02044900416390071 Progress: 18% alpha:0.020447493168044915 Progress: 18% alpha:0.02044602730716377 Progress: 18% alpha:0.020444000483026293 Progress: 18% alpha:0.020442504434467296 Progress: 18% alpha:0.020441011609835063 Progress: 18% alpha:0.02043928549013907 Progress: 18% alpha:0.02043781962925792 Progress: 18% alpha:0.020436076950301748 Progress: 18%
以上就完成了本文的目标,生成的模型文件路径为:library/javaVector.model。
训练之后,下一步的目标就是进行得到词向量之后计算句向量了,这就是后文的目标了。
相关文章推荐
- 利用 word2vec 训练的字向量进行中文分词
- word2vec 训练维基百科正文数据
- 利用 word2vec 训练的字向量进行中文分词
- word2vec源码解析(注释合理版本)
- NLP中word2vec的CBOW模型和Skip-Gram模型
- 利用 word2vec 训练的字向量进行中文分词
- 对word2vec训练的model的结果操作笔记
- word2vec词向量训练及中文文本相似度计算
- NLP中word2vec的使用
- 利用Word2Vec训练词向量过程
- Spark下如何运行Java版本的WordCount
- windows10 训练word2vec 中文语料
- Word2Vec的使用及java版运行解释及错误分析
- 利用 word2vec 训练的字向量进行中文分词
- Apache POI是一个开源的Java读写Excel、WORD等微软OLE2组件文档的项目。目前POI已经有了Ruby版本
- 010-spark standalone模式JAVA版本WordCount代码
- 【NLP】word2vec
- Gensim进阶教程:训练word2vec与doc2vec模型
- 用word2vec训练文本摘要的词向量模型