您的位置：首页 > 其它

word2vec 训练维基百科正文数据

2014-09-21 20:59 375 查看

参考网页：

用word2vec 跑搜狗SogouCS语料 - 大小4G

word2vec使用指导

从维基百科网页提取的预料：1.9G

训练语句：

// alpha学习率，默认0.025; min-count纳入训练的单词的最低出现频率，默认为5; classes聚类个数
./word2vec -train text -output ANSJ_vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1
Vocab size: 957807
Words in train file: 362757324
training time: about 30 mins

数据对比：

</pre><pre name="code" class="plain">// 分词采用stanford word segment 工具
语料大小：1.6G
Vocab size: 887566
Words in train file: 283618995

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

利用生成器产生数据训练word2vec
windows下用Anaconda3做基于维基百科中文word2vec训练
word2vec 用于训练数据，生成模型
python实现word2vec训练结果bin文件转txt文件
对word2vec训练的model的结果操作笔记
gensim实现python对word2vec的训练和计算
【word2vec】之训练模型结果的结构探究模型改造 python gensim
利用 word2vec 训练的字向量进行中文分词
Gensim进阶教程：训练word2vec与doc2vec模型
用word2vec训练文本摘要的词向量模型
windows以及linux下安装gensim笔记以及用wiki(维基百科数据)训练中文词向量
利用 word2vec 训练的字向量进行中文分词
PHP编程 → php实例 → 正文内容 php导出word格式数据 php导出word格式数据的代码实例
python︱gensim训练word2vec及相关函数与功能理解
理解word2vec的训练过程
[NLP]训练Word2vec的JAVA版本
word2vec训练参数说明
利用 word2vec 训练的字向量进行中文分词
利用 word2vec 训练的字向量进行中文分词
利用 word2vec 训练的字向量进行中文分词

新的分享

一次教科书级别的Redis高可用架构设计实践 - Redis
曾光：北京这次的毒株不像国内流行类型
从PRD文档到产品上线，有哪些问题需要解决？
vue3自定义指令的使用
Oracle SQL性能优化最常用的40条建议 - ORACLE
程序员翻车常见反应，你中枪了吗？ - 职场生涯
新鲜开源：基于Prometheus的企业监控平台设计与实现 - 运维
嵌入式软件开发之程序架构设计-任务调度
【Java面试】请简单说一下你对受检异常和非受检异常的理解
奇安信更新招股书：第一季亏损过5亿，齐向东持股38%
艾瑞咨询：2020年中国后智能厨房案例研究报告
艾瑞咨询：2020年中国人工智能+物流发展研究报告

章节导航