国庆第三天2014年10月3日10:21:39,Nutz,WebCollector,jsoup
2014-10-03 10:35
183 查看
(1)做得好,做得快,只能选择一样。
(2)时间过得很快,你没法在假期的一天里完成更多的计划。假期全部由自己支配,相对长一点的睡眠,新加入的娱乐(视频或者游戏),你不比在工作中更有效率。
(3)每天练习一点,记录下来。假期来整合优化巩固,是最好的选择。进步每一天。
(4)不要太期待假期。
(5)参照Nutz 入门教程第一讲,做一个小应用。 视频不清晰还是看完两遍,还是照着一点点的写出来。视频比较直观,Nutz的文档很详细的,但是任然觉得看视频还是更快,看文档太慢了,或许我看文档的方式要改进下。
(6)JAVA爬虫 WebCollector:
官网、API、osc简介、Cookbook&Api、
一个读取API的例子:MyParser.java, DocCrawler.java
View Code
(7)HTML解析器 jsoup
官网、osc简介、
(2)时间过得很快,你没法在假期的一天里完成更多的计划。假期全部由自己支配,相对长一点的睡眠,新加入的娱乐(视频或者游戏),你不比在工作中更有效率。
(3)每天练习一点,记录下来。假期来整合优化巩固,是最好的选择。进步每一天。
(4)不要太期待假期。
(5)参照Nutz 入门教程第一讲,做一个小应用。 视频不清晰还是看完两遍,还是照着一点点的写出来。视频比较直观,Nutz的文档很详细的,但是任然觉得看视频还是更快,看文档太慢了,或许我看文档的方式要改进下。
(6)JAVA爬虫 WebCollector:
官网、API、osc简介、Cookbook&Api、
一个读取API的例子:MyParser.java, DocCrawler.java
package demo.hello; import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler; import cn.edu.hfut.dmic.webcollector.model.Page; import cn.edu.hfut.dmic.webcollector.parser.Parser; import cn.edu.hfut.dmic.webcollector.util.Config; public class DocCrawler extends BreadthCrawler{ @Override public Parser createParser(String url, String contentType) throws Exception { if(contentType==null) return null; if(!contentType.contains("text/html")) return null; return new MyParser(Config.topN); } public static void main(String[] args) throws Exception{ DocCrawler crawler=new DocCrawler(); crawler.addSeed("http://crawlscript.github.io/WebCollectorDoc/"); crawler.addRegex("http://crawlscript.github.io/WebCollectorDoc.*"); crawler.setRoot("pages"); crawler.setThreads(20); crawler.start(10); } }
View Code
(7)HTML解析器 jsoup
官网、osc简介、
相关文章推荐
- WebCollector爬虫学习记录(二)jsoup的小记
- WebCollector爬虫使用内置的Jsoup进行网页抽取
- JAVA网络爬虫WebCollector深度解析——爬虫内核
- WebCollector爬取百度搜索引擎例子
- JAVA爬虫WebCollector教程列表
- webview jsoup解析html
- WebCollector爬取JS加载的数据
- 下载图片webcollector
- 国庆三天假
- WebCollector
- 网页数据采集-webcollector学习与实践
- webcollector 初探(二)
- WebCollector教程——爬取新浪微博
- 在WebCollector爬虫中,自定义http请求
- 动态网页爬取例子(WebCollector+selenium+phantomjs)
- WebCollector教程——获取当前深度
- Java开源爬虫框架WebCollector爬取CSDN博客
- WebCollector内核解析—如何设计一个爬虫
- WebCollector内核开发——定制Http请求
- Webcollector应用(一)