您的位置：首页 > 职场人生

程序员的福利：使用WebCollector爬取某美女网站上的图片

2016-06-26 22:03 671 查看

0x00 需求

某网站，有海量美女图片，里面默认是按美女的英文名字（A-Z）排序的。估算了一下，至少也得有3000+位美女照片，每位的照片数目从几十张到几百张不等。浏览了几天，才浏览了很少的一部分。心想，用浏览器浏览这么慢，效率那个低啊，这么多照片什么时候才能欣赏完。于是需求就来了：如何爬取这个网站上的美女图片呢？

0x01 工具

笔者选择的爬虫框架是WebCollector。

WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本，支持分布式爬取。

相关文档和下载连接在这里：http://www.oschina.net/p/webcollector/edit

笔者使用的版本是2.24

如何安装和配置，这里不详解了，请查阅相关文档。

0x02 Code

查阅该网站网页的元素，确认图片的URL为http://[网站名称]/jav/[美女英文名]/[main
index]/[美女英文名]-[sub index].jpg

闲话少说，Talk is easy, show me the code:

public class Main extends BreadthCrawler{

public Main(String crawlPath, boolean autoParse) throws Exception {
super(crawlPath, autoParse);
}

@Override
public void visit(Page page, CrawlDatums craw) {

/*不处理非jpg的网页/文件*/
if(!Pattern.matches(".*jpg", page.getUrl())){
return;
}

//http://[网站名称]/jav/[美女英文名]/[main index]/[美女英文名]-[sub index].jpg
String strUrl = page.getUrl();
String[] strPart = strUrl.split("/");

if (strPart.length < 7) {
return;
}

String strMainIndex  = strPart[5];
String strPicNameURL = strPart[6];

int nLabel = strPicNameURL.lastIndexOf("-");

if (nLabel < 0) {
return;
}

String strBeautiName = strPicNameURL.substring(0, nLabel);
String strSubIndex = strPicNameURL.substring(nLabel+1, strPicNameURL.length());
String strPicPath = "Download\\"+strBeautiName+ "\\" +strBeautiName + "_" + strMainIndex + "-" + strSubIndex;

//保存路径格式Download\[美女名字]\[美女名字]-[主编号]-[次编号].jpg
/*将图片内容保存到文件，page.getContent()获取的是文件的byte数组*/
try {
FileUtils.writeFileWithParent(strPicPath, page.getContent());
System.out.println(page.getUrl());

} catch (IOException e) {
e.printStackTrace();
}
}

public static void main(String[] args) throws Exception {

Main crawler = new Main("MyCollector", true);

try {
crawler.addSeed("http://www.[网站网址].com");
String strReg = "http://www.[网站网址]/jav/*.*";
crawler.addRegex(strReg);
crawler.setThreads(50);
crawler.start(8);
}
catch(java.io.IOException e){
}
}
}

最后程序运行了很久（按天算），但数据量也不小，可怜的硬盘：

0x03 总结

虽然耗费了很长时间才把很多图片爬取下来，但仔细检查发现，有些图片是没有爬取下来的，通过日志分析发现，爬虫在进行URL请求时，有些页面的URL是请求失败的。这些URL对应于其他网站，而这些网站是被封掉的。程序写的也很匆忙，读者若有什么新的爬虫技术，欢迎分享和指导。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 爬虫美女图片网站 WebCollector

相关文章推荐

新的分享

章节导航