您的位置:首页 > 其它

gensim 教程 -Part1

2016-12-04 09:31 253 查看
本文翻译自

Gensim使用Python的标准日志模型,在不同的优先级中来记录各种东西;

为了激活日志,运行:

>>> import logging
>>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)


简单的例子(Quick Example)

让我们import Gensim,构建一个包含9个文档的语料库,包含12个特征

>>> from gensim import corpora, models, similarities
>>>
>>> corpus = [[(0, 1.0), (1, 1.0), (2, 1.0)],
>>>           [(2, 1.0), (3, 1.0), (4, 1.0), (5, 1.0), (6, 1.0), (8, 1.0)],
>>>           [(1, 1.0), (3, 1.0), (4, 1.0), (7, 1.0)],
>>>           [(0, 1.0), (4, 2.0), (7, 1.0)],
>>>           [(3, 1.0), (5, 1.0), (6, 1.0)],
>>>           [(9, 1.0)],
>>>           [(9, 1.0), (10, 1.0)],
>>>           [(9, 1.0), (10, 1.0), (11, 1.0)],
>>>           [(8, 1.0), (10, 1.0), (11, 1.0)]]


在Gensim中,语料是一个简单的对象,当遍历它的时候,返回它包含的文档的空间向量表示;在这种情况使用元组列表的列表进行表示;有关 vector space model

如果你熟悉向量空间模型,你可能知道解析文档的方法,把文档转化为向量表示对具体应用的效果影响很大;

接下来,让我们实现一个转型:

>>> tfidf = models.TfidfModel(corpus)


这个转型被用于把文档的一种向量表示变为另外一种向量表示;

>>> vec = [(0, 1), (4, 1)]
>>> print(tfidf[vec])
[(0, 0.8075244), (4, 0.5898342)]


这里,我们使用Tf-ldf,
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: