您的位置：首页 > 其它

gensim 教程 -Part1

2016-12-04 09:31 253 查看

本文翻译自

Gensim使用Python的标准日志模型，在不同的优先级中来记录各种东西；

为了激活日志，运行：

>>> import logging
>>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

简单的例子（Quick Example）

让我们import Gensim，构建一个包含9个文档的语料库，包含12个特征

>>> from gensim import corpora, models, similarities
>>>
>>> corpus = [[(0, 1.0), (1, 1.0), (2, 1.0)],
>>>           [(2, 1.0), (3, 1.0), (4, 1.0), (5, 1.0), (6, 1.0), (8, 1.0)],
>>>           [(1, 1.0), (3, 1.0), (4, 1.0), (7, 1.0)],
>>>           [(0, 1.0), (4, 2.0), (7, 1.0)],
>>>           [(3, 1.0), (5, 1.0), (6, 1.0)],
>>>           [(9, 1.0)],
>>>           [(9, 1.0), (10, 1.0)],
>>>           [(9, 1.0), (10, 1.0), (11, 1.0)],
>>>           [(8, 1.0), (10, 1.0), (11, 1.0)]]

在Gensim中，语料是一个简单的对象，当遍历它的时候，返回它包含的文档的空间向量表示；在这种情况使用元组列表的列表进行表示；有关 vector space model

如果你熟悉向量空间模型，你可能知道解析文档的方法，把文档转化为向量表示对具体应用的效果影响很大；

接下来，让我们实现一个转型：

>>> tfidf = models.TfidfModel(corpus)

这个转型被用于把文档的一种向量表示变为另外一种向量表示；

>>> vec = [(0, 1), (4, 1)]
>>> print(tfidf[vec])
[(0, 0.8075244), (4, 0.5898342)]

这里，我们使用Tf-ldf,

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航