知乎爬虫之1:开篇序言(附赠爬出的数据库)
2017-01-04 14:17
295 查看
本文由博主原创,转载请注明出处,原文链接:我的博客-知乎爬虫之开篇序言
git爬虫项目地址(关注和star在哪里~~):https://github.com/MatrixSeven/ZhihuSpider(爬虫已完结)
附赠之前爬取的数据一份(mysql): 链接:https://github.com/MatrixSeven/ZhihuSpider[b]/README.MD [/b]只下载不点赞,不star,差评差评~蓝瘦香菇)
在知乎看到一个可视化话题的文章,所以一时心血来潮,打算用Java也写一个爬虫并且集成到Spring中,结合ECharts生成人物关系,当然,既然爬一次,个人信息也都要获取到。
那么今天起起(结束日未知,目录也会根据实际情况进行更新),我将写一个系列的爬取知乎的爬虫文章,一直到数据可视化完成(完成后,爬虫部分将使用Scala重写)。
人员地理分布可视化
人员大学分布可视化
男女比例可视化
用户点赞可视化
爬虫流程设计
如何过滤重复数据
如何在爬取时创建人物关系
请求分析
登陆请求分析
跟随/关注请求分析
抓取页面数据
jsoup抽取页面内容
优化
使用多线程加速
使用队列减少数据库访问
实现LRU提高缓存命中率
基于SpringBoot的简单应用
介绍
简单配置
扩展内容
整合Mybatis
编写Jsonp跨域请求API
走起苦逼的前端
使用Bootstrop布局
引入ECharts图形库
再见,吹牛结束。
//吾爱Java(QQ群):170936712(点击加入)
git爬虫项目地址(关注和star在哪里~~):https://github.com/MatrixSeven/ZhihuSpider(爬虫已完结)
附赠之前爬取的数据一份(mysql): 链接:https://github.com/MatrixSeven/ZhihuSpider[b]/README.MD [/b]只下载不点赞,不star,差评差评~蓝瘦香菇)
在知乎看到一个可视化话题的文章,所以一时心血来潮,打算用Java也写一个爬虫并且集成到Spring中,结合ECharts生成人物关系,当然,既然爬一次,个人信息也都要获取到。
那么今天起起(结束日未知,目录也会根据实际情况进行更新),我将写一个系列的爬取知乎的爬虫文章,一直到数据可视化完成(完成后,爬虫部分将使用Scala重写)。
1. 预计可视化部分包括
人物关系可视化人员地理分布可视化
人员大学分布可视化
男女比例可视化
用户点赞可视化
2. 预计内容和目录
开篇感言爬虫流程设计
如何过滤重复数据
如何在爬取时创建人物关系
请求分析
登陆请求分析
跟随/关注请求分析
抓取页面数据
jsoup抽取页面内容
优化
使用多线程加速
使用队列减少数据库访问
实现LRU提高缓存命中率
基于SpringBoot的简单应用
介绍
简单配置
扩展内容
整合Mybatis
编写Jsonp跨域请求API
走起苦逼的前端
使用Bootstrop布局
引入ECharts图形库
再见,吹牛结束。
//吾爱Java(QQ群):170936712(点击加入)
相关文章推荐
- [转]知乎爬虫之1:开篇序言(附赠爬出的数据库)
- 知乎爬虫之1:开篇序言
- 知乎爬虫之2:爬虫流程设计(附赠爬出的数据库)
- 知乎爬虫之3:请求分析(附赠之前爬取的数据一份)
- 爬虫记录(6)——爬虫实战:爬取知乎网站内容,保存到数据库,并导出到Excel
- python爬虫01-创建一个简单的爬虫(附赠爬取的100G某小说网数据库)
- [Java] 知乎下巴第5集:使用HttpClient工具包和宽度爬虫
- Scrapy爬虫笔记【8-Scrapy核心操作+爬豆瓣图片+数据库链接】
- 知乎爬虫
- 用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)
- 零基础写Java知乎爬虫之准备工作
- [Java]知乎下巴第1集:爬虫世界百度不仅仅可以拿来测网速
- 乌云漏洞爬虫的数据库版本(mysql)
- Scrapy爬虫笔记【6-连接数据库(一)】
- 使用HtmlParser实现网络爬虫并且插入数据库
- 使用HtmlParser实现网络爬虫并且插入数据库
- Asp.net MVC 3 开发简单的企业系统开篇--数据库
- 怎样用三句话向一个 8 岁小孩解释什么是数据库?(整理来至知乎)
- 数据库优化实践【MS SQL优化开篇】
- [Java]知乎下巴第0集:让我们一起来做一个知乎爬虫吧哦耶