程序员的福利:使用WebCollector爬取某美女网站上的图片
2016-06-26 22:03
671 查看
程序员的福利:使用WebCollector爬取某美女网站上的图片
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。
相关文档和下载连接在这里:http://www.oschina.net/p/webcollector/edit
笔者使用的版本是2.24
如何安装和配置,这里不详解了,请查阅相关文档。
index]/[美女英文名]-[sub index].jpg
闲话少说,Talk is easy, show me the code:
最后程序运行了很久(按天算),但数据量也不小,可怜的硬盘:
0x00 需求
某网站,有海量美女图片,里面默认是按美女的英文名字(A-Z)排序的。估算了一下,至少也得有3000+位美女照片,每位的照片数目从几十张到几百张不等。浏览了几天,才浏览了很少的一部分。心想,用浏览器浏览这么慢,效率那个低啊,这么多照片什么时候才能欣赏完。于是需求就来了:如何爬取这个网站上的美女图片呢?0x01 工具
笔者选择的爬虫框架是WebCollector。WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。
相关文档和下载连接在这里:http://www.oschina.net/p/webcollector/edit
笔者使用的版本是2.24
如何安装和配置,这里不详解了,请查阅相关文档。
0x02 Code
查阅该网站网页的元素,确认图片的URL为http://[网站名称]/jav/[美女英文名]/[mainindex]/[美女英文名]-[sub index].jpg
闲话少说,Talk is easy, show me the code:
public class Main extends BreadthCrawler{ public Main(String crawlPath, boolean autoParse) throws Exception { super(crawlPath, autoParse); } @Override public void visit(Page page, CrawlDatums craw) { /*不处理非jpg的网页/文件*/ if(!Pattern.matches(".*jpg", page.getUrl())){ return; } //http://[网站名称]/jav/[美女英文名]/[main index]/[美女英文名]-[sub index].jpg String strUrl = page.getUrl(); String[] strPart = strUrl.split("/"); if (strPart.length < 7) { return; } String strMainIndex = strPart[5]; String strPicNameURL = strPart[6]; int nLabel = strPicNameURL.lastIndexOf("-"); if (nLabel < 0) { return; } String strBeautiName = strPicNameURL.substring(0, nLabel); String strSubIndex = strPicNameURL.substring(nLabel+1, strPicNameURL.length()); String strPicPath = "Download\\"+strBeautiName+ "\\" +strBeautiName + "_" + strMainIndex + "-" + strSubIndex; //保存路径格式Download\[美女名字]\[美女名字]-[主编号]-[次编号].jpg /*将图片内容保存到文件,page.getContent()获取的是文件的byte数组*/ try { FileUtils.writeFileWithParent(strPicPath, page.getContent()); System.out.println(page.getUrl()); } catch (IOException e) { e.printStackTrace(); } } public static void main(String[] args) throws Exception { Main crawler = new Main("MyCollector", true); try { crawler.addSeed("http://www.[网站网址].com"); String strReg = "http://www.[网站网址]/jav/*.*"; crawler.addRegex(strReg); crawler.setThreads(50); crawler.start(8); } catch(java.io.IOException e){ } } }
最后程序运行了很久(按天算),但数据量也不小,可怜的硬盘:
0x03 总结
虽然耗费了很长时间才把很多图片爬取下来,但仔细检查发现,有些图片是没有爬取下来的,通过日志分析发现,爬虫在进行URL请求时,有些页面的URL是请求失败的。这些URL对应于其他网站,而这些网站是被封掉的。程序写的也很匆忙,读者若有什么新的爬虫技术,欢迎分享和指导。相关文章推荐
- Python3写爬虫(四)多线程实现数据爬取
- 吾爱破解论坛被封:疑似大量黑客破解类内容
- Scrapy的架构介绍
- 近期加速乐的CDN服务极其不稳定
- 爬虫笔记
- 如何在互联网放置 HTML 页面
- Google排名优化的几个影响因素
- 按右键另存图片只能存BMP
- photoshop去除图片上的水印
- 让侮辱中国人的法国cnn网站完蛋
- 如何获得外部优质网站的链接pr
- 网站广告位难卖的几个原因分析与解决方法
- 网站关键词标题和网页描述技巧_站长必看
- upload上传单张图片
- 图片引发的溢出危机(图)
- C# WinForm控件对透明图片重叠时出现图片不透明的简单解决方法
- 单独重开一个网站的步骤
- 能否批量把网站从一台服务器移到哪一台服务器
- 邮箱网站不能用mail.xxx.com:8888的方式访问原因
- C#实现把彩色图片灰度化代码分享