您的位置：首页 > 数据库

知乎爬虫之1:开篇序言(附赠爬出的数据库)

2017-01-04 14:17 295 查看

本文由博主原创,转载请注明出处,原文链接：我的博客-知乎爬虫之开篇序言

git爬虫项目地址(关注和star在哪里~~):https://github.com/MatrixSeven/ZhihuSpider（爬虫已完结）

附赠之前爬取的数据一份(mysql): 链接:https://github.com/MatrixSeven/ZhihuSpider[b]/README.MD [/b]只下载不点赞，不star，差评差评~蓝瘦香菇）

在知乎看到一个可视化话题的文章，所以一时心血来潮，打算用Java也写一个爬虫并且集成到Spring中，结合ECharts生成人物关系，当然，既然爬一次，个人信息也都要获取到。
那么今天起起(结束日未知，目录也会根据实际情况进行更新)，我将写一个系列的爬取知乎的爬虫文章，一直到数据可视化完成（完成后，爬虫部分将使用Scala重写）。

1. 预计可视化部分包括

人物关系可视化

人员地理分布可视化

人员大学分布可视化

男女比例可视化

用户点赞可视化

2. 预计内容和目录

开篇感言

爬虫流程设计
如何过滤重复数据

如何在爬取时创建人物关系

请求分析

登陆请求分析

跟随/关注请求分析

抓取页面数据
jsoup抽取页面内容

优化
使用多线程加速

使用队列减少数据库访问

实现LRU提高缓存命中率

基于SpringBoot的简单应用
介绍

简单配置

扩展内容
整合Mybatis

编写Jsonp跨域请求API

走起苦逼的前端
使用Bootstrop布局

引入ECharts图形库

再见，吹牛结束。

//吾爱Java(QQ群):170936712（点击加入）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航