最新中文文本挖掘小例子及程序
2012-05-30 17:16
316 查看
http://bbs.pinggu.org/thread-853290-1-1.html
中文分词:
因为TM和openNLP对中文支持不好,所以这里的分词软件采用imdict-chinese-analyzer它是中科院张华平博士开发的一款基于HHMM的智能分词软件
分词效果:
zw <- c("如果你聽到某人說他使用某軟體,然后看看效果,有些美中不足,那就叫《星光灿烂》吧!thus do not have the texts already
stored on a hard disk, and want to save the text documents to disk")
1、去停用词:
zwfc(zw,zj1)
[1] "聽 某人 說 使用 軟 體 看看 效果 美 中 不足 星光 灿烂 thu text alreadi store hard disk save text document
disk time: 0.109 s"
2、不去停用词:
zwfc(zw,zj1)
[1] "如果 你 聽 到 某人 說 他 使用 某 軟 體 , 然后 看看 效果 , 有些 美 中 不足 , 那 就 叫 , 星光 灿烂 , 吧
, thu do not have the text alreadi store on a hard disk , and want to save the text document to disk time: 0.0
s"
中文分词对人名地名分解的仍然不好,大多分解成单字。
下面是个简单例子:
一、安装TM和rJava包,并到SUN网站安装JAVA运行环境软件包。
二、将下面的压缩包解压到c盘根目录。
三、在R中运行软件。
结果:
共五个文件:
$FileList
[1] "c:/text/荷兰队长上演惊天远射.txt"
[2] "c:/text/技术化转型路上德国人受重创.txt"
[3] "c:/text/普约尔贡献头球绝杀.txt"
[4] "c:/text/四大天王沉沦各有难念的经.txt"
[5] "c:/text/再战德班德西命运迥异.txt"
-----------------------------------------
1、找出最少出现过5次的词条 ##
> findFreqTerms(dtm, 5)
[1] "乌拉圭" "西班牙"
--------------------------------------------
2、找出与"西班牙"相关度至少达0.8的词条 ###
> findAssocs(dtm, "西班牙", 0.8)
西班牙 德意志
1.00 0.92
--------------------------------------------
去掉较少词频(40%以下)的词条后词条-文件矩阵
inspect(removeSparseTerms(dtm, 0.4))
A document-term matrix (5 documents, 5 terms)
Non-/sparse entries: 22/3
Sparsity : 12%
Maximal term length: 5
Weighting : term frequency (tf)
Terms
Docs 0.0 time: 半决赛 世界杯 西班牙
1 0 1 1 2 0
2 1 1 1 1 5
3 1 1 1 2 4
4 1 1 0 3 1
5 1 1 1 1 7
----------------------------------------
### 词典 ### 它通常用来表示文本挖掘有关词条
A document-term matrix (5 documents, 3 terms)
Non-/sparse entries: 13/2
Sparsity : 13%
Maximal term length: 3
Weighting : term frequency (tf)
Terms
Docs 半决赛 世界杯 西班牙
1 1 2 0
2 1 1 5
3 1 2 4
4 0 3 1
5 1 1 7
本文来自: 人大经济论坛 S-Plus&R专版 版,详细出处参考: http://bbs.pinggu.org/forum.php?mod=viewthread&tid=853290&page=1
中文分词:
因为TM和openNLP对中文支持不好,所以这里的分词软件采用imdict-chinese-analyzer它是中科院张华平博士开发的一款基于HHMM的智能分词软件
分词效果:
zw <- c("如果你聽到某人說他使用某軟體,然后看看效果,有些美中不足,那就叫《星光灿烂》吧!thus do not have the texts already
stored on a hard disk, and want to save the text documents to disk")
1、去停用词:
zwfc(zw,zj1)
[1] "聽 某人 說 使用 軟 體 看看 效果 美 中 不足 星光 灿烂 thu text alreadi store hard disk save text document
disk time: 0.109 s"
2、不去停用词:
zwfc(zw,zj1)
[1] "如果 你 聽 到 某人 說 他 使用 某 軟 體 , 然后 看看 效果 , 有些 美 中 不足 , 那 就 叫 , 星光 灿烂 , 吧
, thu do not have the text alreadi store on a hard disk , and want to save the text document to disk time: 0.0
s"
中文分词对人名地名分解的仍然不好,大多分解成单字。
下面是个简单例子:
一、安装TM和rJava包,并到SUN网站安装JAVA运行环境软件包。
二、将下面的压缩包解压到c盘根目录。
三、在R中运行软件。
结果:
共五个文件:
$FileList
[1] "c:/text/荷兰队长上演惊天远射.txt"
[2] "c:/text/技术化转型路上德国人受重创.txt"
[3] "c:/text/普约尔贡献头球绝杀.txt"
[4] "c:/text/四大天王沉沦各有难念的经.txt"
[5] "c:/text/再战德班德西命运迥异.txt"
-----------------------------------------
1、找出最少出现过5次的词条 ##
> findFreqTerms(dtm, 5)
[1] "乌拉圭" "西班牙"
--------------------------------------------
2、找出与"西班牙"相关度至少达0.8的词条 ###
> findAssocs(dtm, "西班牙", 0.8)
西班牙 德意志
1.00 0.92
--------------------------------------------
去掉较少词频(40%以下)的词条后词条-文件矩阵
inspect(removeSparseTerms(dtm, 0.4))
A document-term matrix (5 documents, 5 terms)
Non-/sparse entries: 22/3
Sparsity : 12%
Maximal term length: 5
Weighting : term frequency (tf)
Terms
Docs 0.0 time: 半决赛 世界杯 西班牙
1 0 1 1 2 0
2 1 1 1 1 5
3 1 1 1 2 4
4 1 1 0 3 1
5 1 1 1 1 7
----------------------------------------
### 词典 ### 它通常用来表示文本挖掘有关词条
A document-term matrix (5 documents, 3 terms)
Non-/sparse entries: 13/2
Sparsity : 13%
Maximal term length: 3
Weighting : term frequency (tf)
Terms
Docs 半决赛 世界杯 西班牙
1 1 2 0
2 1 1 5
3 1 2 4
4 0 3 1
5 1 1 7
本文来自: 人大经济论坛 S-Plus&R专版 版,详细出处参考: http://bbs.pinggu.org/forum.php?mod=viewthread&tid=853290&page=1
相关文章推荐
- RBAC 权限标准到底讲了啥?有啥啥理念?什么什么版本?中文资料?英文资料?标准例子程序等?
- Python 文本挖掘:jieba中文分词和词性标注
- 一个使用Neko提取HTML纯文本内容的程序例子
- 【R文本挖掘】中文分词Rwordseg
- 习语言-中文C语言 最新语法程序, 很易懂,你觉得呢?
- R语言-文本挖掘例子
- 自然语言处理(4)之中文文本挖掘流程详解(小白入门必读)
- 支持中文文本的数据挖掘平台开源项目PyMining发布
- 使用最新的“huihui中文语音库”实现文本转语音功能
- Python实现购物评论文本情感分析操作【基于中文文本挖掘库snownlp】
- 中文文本挖掘预处理流程
- cocos2d-x中文文档和例子程序
- Python数据挖掘-NLTK文本分析+jieba中文文本挖掘
- Spark应用HanLP对中文语料进行文本挖掘--聚类
- 【python数据挖掘课程】二十一.朴素贝叶斯分类器详解及中文文本舆情分析
- 2011年冬季最新斯坦福大学公开课:iOS程序开发教程【中文字幕】
- 中文文本挖掘课程笔记之jieba分词(1)
- R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
- 中文文本挖掘预处理流程总结
- 中文文本挖掘的贝叶斯分类器&SVM