词库的扩充-百度百科的抓取-你知道这些热词吗? - rabbit9898 - ITeye技术网站
2012-06-02 05:24
609 查看
词库的扩充-百度百科的抓取-你知道这些热词吗? - rabbit9898 - ITeye技术网站
词库的扩充-百度百科的抓取-你知道这些热词吗? 博客分类: 百度百科词库抓取 做中文分词需要一个好的词库,网上收集的这些都基本不更新,没有办法,只有自己抓取百科中的词条了。但是百科中有300多万词条,要全部抓取下来把其中的优质词条摘录出来并非易事。 抓取用 httpclient 应该就够了 Java代码 org.apache.httpcomponents httpclient 4.1 解析用htmlclener 就够了 Java代码
关于抓取维基百科,百度百科,Google News的记录 - kklldog - 博客园关于抓取维基百科,百度百科,Google News的记录 最近由于项目中需要抓取维基百科,百度百科,Google News的数据,做了些研究。维基百科开放性做的好,用强大的API支持查询,不过中文的API貌似是基于繁体的,而且中文的维基信息太少了,有些关键词没有对应的词条。于是目标转向百度百科。百度百科的词条确实很丰富,一般的关键词基本都有对应的词条。不过百度百科的词条对应的html页面的连接是这样的 baike.baidu.com/view/0000.html 。0000对应的是某个词条了。要想根据URL来获取就首先需要把关键词转换成对应的数字。通过httpwatch查看后发现http://baike.baidu.com/searchword/?word= keyWord &pic=1&sug=1&enc=gbk 这个url返回的信息中包含了关键词对应的0000.html此格式的数据。关键词要gb2312编码。把信息提取出来,拼接一下url,这样就能顺利获取百度百科的html页面了。然后把html页面做处理,输出到自己的页面上。因为html页面结构复杂,在服务器做处理效率低。所以我觉得还不如把所有html代码输出到自己的页面中,在用JQuery来处理页面,只要用IE或者chrome的开发人员工具,看一下结构,然后用JQuery来提取啊,隐藏啊,这样方便多了。Google New的思路同百度百科,用webrequest来模拟搜索请求,取得html代码,输出到自己的页面,JQuery来处理下就OK了。
相关文章推荐
- 增加tomcat内存的方法 - jiasudu - ITeye技术网站
- 网站程序员你们知道这些URL编码知识吗?
- 晒晒我们的开源项目 - robbin的自言自语 - ITeye技术网站
- 知道这些网站,你就老了!
- caoruntao的博客 - 数据结构及算法分类文章列表 - ITeye技术网站
- Java编译器、JVM、解释器 - - ITeye技术网站
- 让Eclipse支持JQuery代码自动完成 - 空山雪林通用模块设计工作室 - ITeye技术网站
- 阿里巴巴开源项目:分布式数据库同步系统otter(解决中美异地机房) - agapple - ITeye技术网站
- 做技术的大家可以看一下这些网站,
- 技术层面的东西永远无法弥补为人处事之道的能力。 他妈的,为什么我从小就没好好掌握后者,光是知道努力学习,努力学习。 他妈的,努力学习,一辈子就去当科学家,工程师,技术员,虽然不是鄙视这些职位,只是,深
- 【openstack】openstack网络详解(Essex版) - 活到老,学到老 - ITeye技术网站
- ibatis参数传递小技巧 - 疯狂的菠菜 - ITeye技术网站
- 软件开发者需要知道国外技术网站
- python 内存泄露的诊断 - 独立思考 - ITeye技术网站
- Ubuntu - unixodbc 配置 - zhouzhk - ITeye技术网站
- windows下boost开发环境简易教程(cygwin+eclipse) - - ITeye技术网站
- 基于Antlr4编写DSL - IBYoung - ITeye技术网站
- 分享几个程序员应该知道的网站和技术博客
- 简单epoll多线程服务器 - - ITeye技术网站
- 第五章 常用Lua开发库1-redis、mysql、http客户端 - 开涛的博客 - ITeye技术网站