os.walk处理路径&&lda初级使用
2016-07-18 15:21
316 查看
# -*- coding: cp936 -*-
import jieba, os
from gensim import corpora, models, similarities
train_set = []
walk = os.walk('/home/8888/test1')
for root, dirs, files in walk:
for name in files:
f = open(os.path.join(root, name), 'r')
raw = f.read()
word_list = list(jieba.cut(raw, cut_all = False))
train_set.append(word_list)
dic = corpora.Dictionary(train_set)
corpus = [dic.doc2bow(text) for text in train_set]
tfidf = models.TfidfModel(corpus)#构造tfidf对象
corpus_tfidf = tfidf[corpus]#将tfidf应用于该语料库,计算该corpus的tfidf
lda = models.LdaModel(corpus_tfidf, id2word = dic, num_topics = 10)#构造lda对象
corpus_lda = lda[corpus_tfidf]#将lda应用到该语料库,计算该语料的lda 此处尚未考虑stopword的问题
for i in range(0, 10):
print lda.print_topic(i)
import jieba, os
from gensim import corpora, models, similarities
train_set = []
walk = os.walk('/home/8888/test1')
for root, dirs, files in walk:
for name in files:
f = open(os.path.join(root, name), 'r')
raw = f.read()
word_list = list(jieba.cut(raw, cut_all = False))
train_set.append(word_list)
dic = corpora.Dictionary(train_set)
corpus = [dic.doc2bow(text) for text in train_set]
tfidf = models.TfidfModel(corpus)#构造tfidf对象
corpus_tfidf = tfidf[corpus]#将tfidf应用于该语料库,计算该corpus的tfidf
lda = models.LdaModel(corpus_tfidf, id2word = dic, num_topics = 10)#构造lda对象
corpus_lda = lda[corpus_tfidf]#将lda应用到该语料库,计算该语料的lda 此处尚未考虑stopword的问题
for i in range(0, 10):
print lda.print_topic(i)
相关文章推荐
- gulpfile.js(编译sass,压缩图片,自动刷新浏览器)
- 【C语言入门教程】4.9 指向指针的指针
- Codeforces Round #347 (Div. 2) B - Rebus
- hdu 5166(水题)
- java.util.ConcurrentModificationException
- Android和iOS设备中的纹理压缩
- 【spring bean】spring中bean的懒加载和depends-on属性设置
- HDU - 2063 过山车(二分图匹配)
- Android 5.0 内置第三方apk
- 用PS去除图片中文字的6个方法
- 《Windows via C/C++》学习笔记 —— 线程的相关性
- 把汉字转换成拼音(全拼)
- react-native--生命周期
- 网址链接收藏
- Android系统集成第三方pre-build库和程序(转)
- 【C语言入门教程】4.8 指针数组
- 【C语言入门教程】4.7 指针的地址分配 - mallocl(), free()
- Windows 7 共享文件夹 给 VirtualBox 中的 Ubuntu 14
- 在离线环境中使用.NET Core
- HttpHelper