【数据平台】python语言NLP库Gensim初识
2017-11-01 15:39
281 查看
1、基本介绍
Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。
官网:https://radimrehurek.com/gensim/
https://pypi.python.org/pypi/gensim/
安装:pip install gensim
2、基本概念:
语料(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。语料中不需要人工标注的附加信息。在Gensim中,Corpus通常是一个可迭代的对象(比如列表)。每一次迭代返回一个可用于表达文本对象的稀疏向量。
向量(Vector):由一组文本特征构成的列表。是一段文本在Gensim中的内部表达。
稀疏向量(Sparse Vector):通常,我们可以略去向量中多余的0元素。此时,向量中的每一个元素是一个(key, value)的tuple。
模型(Model):是一个抽象的术语。定义了两个向量空间的变换(即从文本的一种向量表达变换为另一种向量表达)。
gensim 是一个通过衡量词组(或更高级结构,如整句或文档)模式来挖掘文档语义结构的工具。gensim 以“文集”——文本文档的集合——作为输入,并生成一个“向量”来表征该文集的文本内容,从而实现语义挖掘。该向量表示可被用于训练一个“模型”。模型是从数据生成不同特征的算法集,通常是更为语义化的。
3、功能:预料处理、文本向量化、文本相似度等。
Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。
官网:https://radimrehurek.com/gensim/
https://pypi.python.org/pypi/gensim/
安装:pip install gensim
2、基本概念:
语料(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。语料中不需要人工标注的附加信息。在Gensim中,Corpus通常是一个可迭代的对象(比如列表)。每一次迭代返回一个可用于表达文本对象的稀疏向量。
向量(Vector):由一组文本特征构成的列表。是一段文本在Gensim中的内部表达。
稀疏向量(Sparse Vector):通常,我们可以略去向量中多余的0元素。此时,向量中的每一个元素是一个(key, value)的tuple。
模型(Model):是一个抽象的术语。定义了两个向量空间的变换(即从文本的一种向量表达变换为另一种向量表达)。
gensim 是一个通过衡量词组(或更高级结构,如整句或文档)模式来挖掘文档语义结构的工具。gensim 以“文集”——文本文档的集合——作为输入,并生成一个“向量”来表征该文集的文本内容,从而实现语义挖掘。该向量表示可被用于训练一个“模型”。模型是从数据生成不同特征的算法集,通常是更为语义化的。
3、功能:预料处理、文本向量化、文本相似度等。
相关文章推荐
- Windows 平台上的使用 Python 语言实现 appium 自动化程序环境配置
- Windows 平台上的使用 Python 语言实现 appium 自动化程序 for Android(完整版)
- Windows 平台上的使用 Python 语言实现 appium 自动化程序 for Android(完整版)
- 数据结构与算法:python语言描述学习笔记Part2
- go 语言调用 python 把.dat格式数据转换为.mat
- 【语言处理与Python】11.4使用XML\11.5使用Toolbox数据
- 初识Python-2、Python的常/变量、数据类型、运算符
- 【脚本语言系列】关于Python操作数据二进制数据,你需要知道的事情
- 4000 python语言 实现数据仓库开发
- 从零开始:NTFS文件格式的数据恢复的程序设计python语言(1)
- Python下的自然语言处理利器-LTP语言技术平台 pyltp 学习手札
- 用python获取气象数据开放平台信息
- python语言 根据数据文件 在窗口中绘制路径 要点
- R语言 vs Python对比:数据分析哪家强?
- python语言基础之基本数据类型及其运算(1)
- 从零开始:NTFS文件格式的数据恢复的程序设计python语言(3)
- 开始学习python语言,想进入数据分析,人工智能行业。
- 高性能数据序列化库,可序列化为binary,也可序列化为json,支持C++ java python php objectc 语言,兼容json数据格试,可以互相转换,跨语言交换数据,网络传输,远程调
- 【脚本语言系列】关于 Python 数据分析,你需要知道的事
- 搭建python数据分析平台