基于WebCollector的java爬虫(二)配合shell+cutycapt抓取糗事百科页面生成图片
2016-12-02 15:16
736 查看
基于WebCollector的java爬虫(二)配合shell+cutycapt抓取糗事百科页面生成图片
代码:https://code.csdn.net/u012995856/javacrawler/tree/master
效果:
1.使用WebCollector抓取糗百的url
QiuShiBaiKe.java
package com.huijiasoft.pangPython.crawler; import java.util.ArrayList; import java.util.List; import com.huijiasoft.pangPython.utils.AppendToTXT; import cn.edu.hfut.dmic.webcollector.model.CrawlDatums; import cn.edu.hfut.dmic.webcollector.model.Page; import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler; /** * @author pangPython * @function 抓取糗事百科网页URL */ public class QiuShiBaiKe extends BreadthCrawler{ static List<String> list = new ArrayList<String>(); public QiuShiBaiKe(String crawlPath, boolean autoParse) { super(crawlPath, autoParse); addSeed("http://www.qiushibaike.com"); addRegex("http://www.qiushibaike.com/\\w*/"); addRegex("http://www.qiushibaike.com/\\w+/\\d+/"); addRegex("http://www.qiushibaike.com/\\w+/\\w+/\\w+/\\w+/"); addRegex("http://www.qiushibaike.com/\\w+/\\w+/\\d*/?\\w*"); } @Override public void visit(Page page, CrawlDatums arg1) { String url = page.getUrl(); System.out.println(url); list.add(url); } public static void main(String[] args) throws Exception { QiuShiBaiKe qsbk = new QiuShiBaiKe("qsbk", true); qsbk.setThreads(50); qsbk.setTopN(5000); qsbk.start(6); AppendToTXT.ToTXT("qsbk.txt", list); } }
2.使用shell脚本
思路:按行读取抓取的txt文本,拼接成命令行字符串,使用eval执行字符串命令
这里使用一个工具cutycapt
使用
cutycapt -url=https://www.baidu.com -out=1.png
需要替换的就是url,然后图片名称用随机数来生成文件名.
getqsbk.sh
#!/bin/bash g1="cutycapt --url=" g2=" --out=" g3=".png" cat qsbk.txt | while read line do g=${g1}$line${g2}$RANDOM${g3} eval $g done
这段shell脚本需要在有GUI界面的linux系统中运行.
赋予可执行权限
chmod +x getqsbk.sh
执行
./getqsbk.sh
相关文章推荐
- [JavaWeb]将Web页面内容生成图片
- 基于WebCollector的java爬虫(一)爬取滨州学院官网新闻
- 学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面
- Web验证码图片的生成-基于Java的实现
- Web开发中的验证码图片的生成-基于Java的实现
- 基于webmagic的java网页爬虫,抓取网页指定节点,然后使用dom4j分析xml数据
- javaweb之response随机生成图片验证码加载到web页面中(本实例使用了禁止浏览器缓存头),并且单击使用javascript换图片
- 学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面
- WebCollector2.X 网络JAVA爬虫入门(抓取百度百科)
- [Java爬虫HttpClient_Demo2模拟浏览器并抓取Web图片]
- JAVA综合面试题:页面的抓取、解析、保存数据库和生成HTML的
- VIPS:基于视觉的Web页面分页算法 (参考,看起来很有用,如果有更好的聚焦类爬虫网页分析算法,请发给我参考,谢啦)
- 用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)
- java将文档转换成html页面代码 (doc中的图片生成资源文件)
- 用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)
- 【网络爬虫】【java】微博爬虫(二):如何抓取HTML页面及HttpClient使用
- java网络爬虫——下载页面图片
- JAVA网络爬虫WebCollector深度解析——爬虫内核
- 用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)
- JAVA爬虫Nutch、WebCollector的正则约束