数据挖掘之web文本自动分类
2007-03-27 10:01
309 查看
自动分类器利用机器学习原理对网页进行分类。分类器的工作步骤如下:
(1)利用搜狐分类目录的分类样本集进行训练,获得每个分类在特征空间上的聚类中心。
(2)采用用户选择的分类器对接收的文本进行自动分类,并输出结果。
分类器被应用在网页搜索的分类提示功能中。分类提示功能不是简单的关键字叠加。
分类器自动判断出文本所属的分类,然后按分类下结果多少给出提示,帮助用户有效缩小结果集,更精准地找到所需的信息。
百度新闻里有自动分类的新闻,据说准确率能到90%以上.
训练语料:搜狗实验室提供的分类语料精简版,另自己爬了些数据
训练词典:搜狗实验室提供的词典,包含IDF,词性等值
包含大类:房产,汽车,财经,IT,医疗,教育,旅游,体育,招聘,政治,军事
实现算法:
训练,解压搜狗分类语料,对各个类别分别训练,利用我自己变通的KNN算法,得到每种语料的学习结果
分类,给定一篇文本,分词,得到每一个词的权重,然后根学习结果比较,最相近的一类就是它所属的大类.
缺点:训练语料都是新闻类,所以测试最好用新闻语料.另IT类训练语料问题,IT类误差较大.
测试地址http://211.151.238.201:8080/bhvtemp/classifyTester.jsp
(1)利用搜狐分类目录的分类样本集进行训练,获得每个分类在特征空间上的聚类中心。
(2)采用用户选择的分类器对接收的文本进行自动分类,并输出结果。
分类器被应用在网页搜索的分类提示功能中。分类提示功能不是简单的关键字叠加。
分类器自动判断出文本所属的分类,然后按分类下结果多少给出提示,帮助用户有效缩小结果集,更精准地找到所需的信息。
百度新闻里有自动分类的新闻,据说准确率能到90%以上.
训练语料:搜狗实验室提供的分类语料精简版,另自己爬了些数据
训练词典:搜狗实验室提供的词典,包含IDF,词性等值
包含大类:房产,汽车,财经,IT,医疗,教育,旅游,体育,招聘,政治,军事
实现算法:
训练,解压搜狗分类语料,对各个类别分别训练,利用我自己变通的KNN算法,得到每种语料的学习结果
分类,给定一篇文本,分词,得到每一个词的权重,然后根学习结果比较,最相近的一类就是它所属的大类.
缺点:训练语料都是新闻类,所以测试最好用新闻语料.另IT类训练语料问题,IT类误差较大.
测试地址http://211.151.238.201:8080/bhvtemp/classifyTester.jsp
相关文章推荐
- 全文检索、数据挖掘、推荐引擎系列6---基于KMean的文本自动算法
- 文本数据的机器学习自动分类方法
- 文本数据的机器学习自动分类方法(上)
- 达观数据:文本大数据的机器学习自动分类方法
- 基于 Web 的数据挖掘 (自动抽取用 HTML、XML 和 Java 编写的信息)
- 文本分类,数据挖掘和机器学习
- 全文检索、数据挖掘、推荐引擎系列6---基于KMean的文本自动算法
- 文本数据的机器学习自动分类方法(上)
- 文本数据的机器学习自动分类方法(下)
- 文本数据的机器学习自动分类方法
- 全文检索、数据挖掘、推荐引擎系列6---基于KMean的文本自动算法
- 全文检索、数据挖掘、推荐引擎系列6---基于KMean的文本自动算法
- 基于 Web 的数据挖掘--自动抽取用 HTML、XML 和 Java 编写的信息
- 数据挖掘算法(一)提高文本分类算法准确率和性能的10条建议
- 【大数据部落】WEKA文本挖掘分析垃圾邮件分类模型
- 文本数据的机器学习自动分类方法(下)
- 数据挖掘:基于朴素贝叶斯分类算法的文本分类实践
- 文本数据的机器学习自动分类方法(转)
- 文本分类,数据挖掘和机器学习
- 全文检索、数据挖掘、推荐引擎系列6---基于KMean的文本自动算法