python scipy使用余弦定理求句子相似度
2018-01-25 15:08
295 查看
import jieba import gensim import numpy as np from gensim import corpora from scipy.spatial.distance import pdist text1 = "我去玉龙雪山并且喜欢玉龙雪山玉龙雪山" text2 = "我去玉龙雪山并且玉龙雪山玉龙雪山" text_dict = [[word for word in jieba.cut(text1)]]+[[word for word in jieba.cut(text2)]] dictionary = corpora.Dictionary(text_dict,prune_at=2000000) bow1= dictionary.doc2bow(jieba.cut(text1)) print len(dictionary.keys()) # 5 numpy_X = gensim.matutils.corpus2dense([bow1],num_terms=len(dictionary.keys()),dtype=np.int).T bow2= dictionary.doc2bow(jieba.cut(text2)) numpy_Y = gensim.matutils.corpus2dense([bow2],num_terms=len(dictionary.keys()),dtype=np.int).T # 也可以再加个标准化 from sklearn import preprocessing scaler = preprocessing.StandardScaler().fit(numpy_X[0]) pred_X_train = scaler.transform(numpy_X[0]) pred_X_test = scaler.transform(numpy_Y[0]) sims=1-pdist([numpy_X[0],numpy_Y[0]],'cosine') sims1=1-pdist([pred_X_train,pred_X_test],'cosine') print sims # [ 0.96076892] print sims1 # [ 0.9]
相关文章推荐
- 转:Python 文本挖掘:使用gensim进行文本相似度计算
- Python 文本挖掘:使用gensim进行文本相似度计算
- Python 文本挖掘:使用gensim进行文本相似度计算
- Python 文本挖掘:使用gensim进行文本相似度计算
- Windows下使用命令安装Python的scipy库出错的解决
- Python 文本挖掘:使用gensim进行文本相似度计算
- 简单使用scipy.weave混合使用Python和C++代码的简单例子
- Python 文本挖掘:使用gensim进行文本相似度计算
- python使用安装numpy、scipy、matplotlib等工具包
- Python使用scipy进行多项式计算与符号计算
- Windows下使用命令安装Python的scipy库出错的解决
- Python 文本挖掘:使用gensim进行文本相似度计算
- python使用gensim进行文本相似度计算
- 【编程语言】Python 使用包管理工具pip安装模块numpy、scipy、matplotlib以及scikit-learn CentOS 7
- Python使用scipy和numpy操作处理图像
- python使用gensim进行文本相似度计算
- Python 文本挖掘:使用gensim进行文本相似度计算 http://rzcoding.blog.163.com/blog/static/2222810172013101895642665/
- Python使用matplotlib,numpy,scipy进行散点的平滑曲线化方法
- python中做层次聚类,使用scipy.cluster.hierarchy.fclusterdata方法 - Waleking的专栏 - 博客频道 - CSDN.NET
- python中做层次聚类,使用scipy.cluster.hierarchy.fclusterdata方法