gensim 教程 -Part1
2016-12-04 09:31
253 查看
本文翻译自
Gensim使用Python的标准日志模型,在不同的优先级中来记录各种东西;
为了激活日志,运行:
简单的例子(Quick Example)
让我们import Gensim,构建一个包含9个文档的语料库,包含12个特征
在Gensim中,语料是一个简单的对象,当遍历它的时候,返回它包含的文档的空间向量表示;在这种情况使用元组列表的列表进行表示;有关 vector space model
如果你熟悉向量空间模型,你可能知道解析文档的方法,把文档转化为向量表示对具体应用的效果影响很大;
接下来,让我们实现一个转型:
这个转型被用于把文档的一种向量表示变为另外一种向量表示;
这里,我们使用Tf-ldf,
Gensim使用Python的标准日志模型,在不同的优先级中来记录各种东西;
为了激活日志,运行:
>>> import logging >>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
简单的例子(Quick Example)
让我们import Gensim,构建一个包含9个文档的语料库,包含12个特征
>>> from gensim import corpora, models, similarities >>> >>> corpus = [[(0, 1.0), (1, 1.0), (2, 1.0)], >>> [(2, 1.0), (3, 1.0), (4, 1.0), (5, 1.0), (6, 1.0), (8, 1.0)], >>> [(1, 1.0), (3, 1.0), (4, 1.0), (7, 1.0)], >>> [(0, 1.0), (4, 2.0), (7, 1.0)], >>> [(3, 1.0), (5, 1.0), (6, 1.0)], >>> [(9, 1.0)], >>> [(9, 1.0), (10, 1.0)], >>> [(9, 1.0), (10, 1.0), (11, 1.0)], >>> [(8, 1.0), (10, 1.0), (11, 1.0)]]
在Gensim中,语料是一个简单的对象,当遍历它的时候,返回它包含的文档的空间向量表示;在这种情况使用元组列表的列表进行表示;有关 vector space model
如果你熟悉向量空间模型,你可能知道解析文档的方法,把文档转化为向量表示对具体应用的效果影响很大;
接下来,让我们实现一个转型:
>>> tfidf = models.TfidfModel(corpus)
这个转型被用于把文档的一种向量表示变为另外一种向量表示;
>>> vec = [(0, 1), (4, 1)] >>> print(tfidf[vec]) [(0, 0.8075244), (4, 0.5898342)]
这里,我们使用Tf-ldf,
相关文章推荐
- 【PAT】4-2. 打印九九口诀表(15)
- word2vec API
- HDU 2561 第二小整数 水题
- Distributed Representations of Words and Phrasesand their Compositionality
- 架构师的成长之路
- Distributed Representations of Words and Phrasesand their Compositionality
- Keras API
- 矩阵输出
- thinkphp中session跨域问题
- Android拍照识别身份证SDK
- 《Reverse Engineering for Beginners》 - 第1章 代码模式 - 笔记(1.5-1.6)
- ButterKnife8.4使用配置
- PDF书籍页码优化显示技巧(基于Acrobat Pro DC 2015版)
- map常用用法
- 20145304 20145315 《信息安全系统设计基础》 实验五 网络通信
- Bootstrap+JQuery验证框架开发分析
- 微软的FreeBSD社区推广活动 北京站,你没看错!微软现在是一家名副其实的开源公司
- Asp.Net Core 通过中间件防止图片盗链
- 一款全新的基于IntelliJ和ReSharper的跨平台.NET IDE
- android内存分析--002(实例)