google-word2vec学习使用
2017-02-27 11:20
357 查看
1.下载google-word2vec的源码
2.在windows系统中安装cygwin工具
3.寻找训练语料
本人使用搜狗全网新闻数据:http://www.sogou.com/labs/resource/ca.php下载完整版,完整版(711MB)
4.处理语料文件
新闻语料格式说明:数据格式为
<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
注意:content字段去除了HTML标签,保存的是新闻正文文本
处理目的:删除无效标签,对有效文本内容进行分词,生成可用于word2vec的训练语料
1)处理文件,将文本文件修改成标准的xml文件
在文件开始位置添加:<?xml version=\"1.0\" encoding=\"UTF-8\"?>\r\n
<docs>\r\n
在文件末尾位置添加:
\r\n</docs>
生成xml文件格式:
<?xml version=\"1.0\" encoding=\"UTF-8\"?>
<docs>
<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
.......(此处省略无数个doc)
</docs>
2)使用sax解析xml文本
读取xml中的title和content,使用ansj标题和内容进行分词,将分解结果写入另一个文件中,该文件为训了语料
结果生成的文本语料为2.12 GB
代码下载地址:http://download.csdn.net/detail/programmeryu/9765032
5.使用训练语料训练word2vec
将训练好的语料放入word2vec的项目目录下,修改demo-word.sh文件make
time ./word2vec -train wordtrain.txt -output vectors.bin -cbow 1 -size 60 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15
./distance vectors.bin
wordtrain.txt 语料文本文件名称
vectors.bin 生成的向量文件
size 词向量维数
binary 0为文本储存(可查看) 1为使用(不能打开查看)
运行命令sh demo-word.sh进行语料训练
6.查看近似词和vector.bin文件
生成的vector.bin文件是词向量文件,153 MB如何利用生成的词向量文件进行文本分类和文本聚类?待续
相关文章推荐
- word2vec使用说明(google工具包)
- word2vec使用说明补充(google工具包)
- 二十五、google的文本挖掘深度学习工具word2vec的实现原理
- word使用学习总结
- 学习使用Delphi 2009 开发 Word 2003 插件 <一>
- 【Android开发学习45】使用google语音识别引擎(Google Speech API)<一>
- Google SVN托管和使用学习笔记
- word2vec使用指导
- 转载:word2vec的学习思路
- word2vec的学习思路
- word2vec的学习思路
- word2vec使用
- Ajax学习摘录之第九部分 使用 Google Ajax Search API
- WORD2VEC 学习路线
- pass2word例子---------------学习FMDB使用
- word2vec学习笔记
- Google SVN托管和使用学习笔记
- word的使用学习笔记(一)
- api工程IOS学习:在IOS开发中使用GoogleMaps SDK
- Google开源的Deep-Learning项目word2vec处理中文