WebCollector爬虫学习记录(一)爬取国际石油网知识板块
2017-03-15 15:47
316 查看
一、爬取国际石油网知识板块
要爬取的网站为:http://oil.in-en.com/zhishi/
网站结构比较标准,新闻列表页单一且包含href链接,下一页链接等信息
1.1 添加种子
1.2 visit覆写
先提取列表页的Elements,他的class为”clist sborder“
过滤其中的a[href],如果包含"http://oil.in-en.com/html/oil"就加入清洗和入库
如果indexOf("下一页")就next.add(href);,即将此链接设置为下一页的种子
清洗、时间条件过滤、关键词过滤和入库的过程此处省略
在过滤class="clist sborder"的步骤好像麻烦了,但是jsoup的css选择器对于属性中间有空格的解决方法这边不是很了解,也没有查到,看下面可不可以解决。
要爬取的网站为:http://oil.in-en.com/zhishi/
网站结构比较标准,新闻列表页单一且包含href链接,下一页链接等信息
1.1 添加种子
}else if (crawler.webMoudle == 38) { if (crawler.mk.equals("Sybk")) { /* 起始页 */ crawler.addSeed("http://oil.in-en.com/zhishi/"); crawler.addRegex("http://oil.in-en.com/html/oil.*"); } }
1.2 visit覆写
先提取列表页的Elements,他的class为”clist sborder“
过滤其中的a[href],如果包含"http://oil.in-en.com/html/oil"就加入清洗和入库
如果indexOf("下一页")就next.add(href);,即将此链接设置为下一页的种子
else if (this.webMoudle == 38) { Elements pageHaveClass = page.select("div[class]"); for (Iterator it = pageHaveClass.iterator(); it.hasNext();) { Element pageSelectedClass = (Element) it.next(); String classAttr = pageSelectedClass.attr("class"); if (classAttr.equals("clist sborder")) { Elements es = pageSelectedClass.select("a[href]"); for (Iterator itHref = es.iterator(); itHref.hasNext();) { Element e = (Element) itHref.next(); String href = e.attr("abs:href"); if (e.text().indexOf("下一页") >= 0) { next.add(href); } if (href.indexOf("http://oil.in-en.com/html/oil") != -1) { String title = e.text(); datebaseByContentExtractor(href, title); } } } } }
清洗、时间条件过滤、关键词过滤和入库的过程此处省略
在过滤class="clist sborder"的步骤好像麻烦了,但是jsoup的css选择器对于属性中间有空格的解决方法这边不是很了解,也没有查到,看下面可不可以解决。
相关文章推荐
- 爬虫学习记录1-基本知识,简单进行网页抓取
- 概念记录 - 学习时遇到的概念和知识的简单记录
- 【D3D学习记录】入门3D编程的基本数学知识(2)-向量、线性空间和线性变换
- java学习 知识要点记录1
- 程序员面试笔试宝典学习记录(五)(操作系统相关知识)
- Flex学习记录(一)——MXML基本知识
- 足迹, 决定把我学习过程中的知识和困惑记录下来
- Flex学习记录(一)——MXML基本知识
- Android学习记录四(应用程序基本知识)
- Android学习之手机联系人的查询与添加(ContentProvider知识板块)
- 【原创】XNA 4.0学习知识记录(1)
- 和菜鸟一起学linux之bluetooth学习记录基础知识
- 和菜鸟一起学linux之wifi学习记录基础知识
- 1个小爬虫程序的学习记录
- 【D3D学习记录】入门3D编程的基本数学知识(1)-坐标系
- 和菜鸟一起学linux之wifi学习记录基础知识
- 2015年1月9日从今天起我定记录一下我自己的学习成果,知识的积累从一点一滴开始!window下搭建solr
- 记录《自己动手写网络爬虫 》书中涉及的内容学习一些算法
- ftrace基础知识学习+使用实例 (仅作学习记录)
- JavaScript 对象学习零碎知识记录