您的位置：首页 > 数据库

[转]知乎爬虫之1:开篇序言(附赠爬出的数据库)

2017-01-05 09:41 651 查看

知乎爬虫之1:开篇序言(附赠爬出的数据库)

本文由博主原创,转载请注明出处,原文链接：我的博客-知乎爬虫之开篇序言

git爬虫项目地址(关注和star在哪里~~):https://github.com/MatrixSeven/ZhihuSpider（爬虫已完结）

附赠之前爬取的数据一份(mysql): 链接:https://github.com/MatrixSeven/ZhihuSpider/README.MD 只下载不点赞，不star，差评差评~蓝瘦香菇）

在知乎看到一个可视化话题的文章，所以一时心血来潮，打算用Java也写一个爬虫并且集成到Spring中，结合ECharts生成人物关系，当然，既然爬一次，个人信息也都要获取到。
那么今天起起(结束日未知，目录也会根据实际情况进行更新)，我将写一个系列的爬取知乎的爬虫文章，一直到数据可视化完成（完成后，爬虫部分将使用Scala重写）。

1. 预计可视化部分包括

人物关系可视化
人员地理分布可视化
人员大学分布可视化
男女比例可视化
用户点赞可视化

2. 预计内容和目录

开篇感言
爬虫流程设计如何过滤重复数据
如何在爬取时创建人物关系

请求分析

跟随/关注请求分析

抓取页面数据

jsoup抽取页面内容

优化

使用队列减少数据库访问
实现LRU提高缓存命中率

基于SpringBoot的简单应用

简单配置

扩展内容

编写Jsonp跨域请求API

走起苦逼的前端

引入ECharts图形库

再见，吹牛结束。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航