您的位置:首页 > 数据库

知乎爬虫之1:开篇序言(附赠爬出的数据库)

2017-01-04 14:17 295 查看
本文由博主原创,转载请注明出处,原文链接:我的博客-知乎爬虫之开篇序言

git爬虫项目地址(关注和star在哪里~~):https://github.com/MatrixSeven/ZhihuSpider(爬虫已完结)

附赠之前爬取的数据一份(mysql): 链接:https://github.com/MatrixSeven/ZhihuSpider[b]/README.MD [/b]只下载不点赞,不star,差评差评~蓝瘦香菇)

在知乎看到一个可视化话题的文章,所以一时心血来潮,打算用Java也写一个爬虫并且集成到Spring中,结合ECharts生成人物关系,当然,既然爬一次,个人信息也都要获取到。
那么今天起起(结束日未知,目录也会根据实际情况进行更新),我将写一个系列的爬取知乎的爬虫文章,一直到数据可视化完成(完成后,爬虫部分将使用Scala重写)。

1. 预计可视化部分包括

人物关系可视化

人员地理分布可视化

人员大学分布可视化

男女比例可视化

用户点赞可视化

2. 预计内容和目录

开篇感言

爬虫流程设计
如何过滤重复数据

如何在爬取时创建人物关系

请求分析

登陆请求分析

跟随/关注请求分析

抓取页面数据
jsoup抽取页面内容

优化
使用多线程加速

使用队列减少数据库访问

实现LRU提高缓存命中率

基于SpringBoot的简单应用
介绍

简单配置

扩展内容
整合Mybatis

编写Jsonp跨域请求API

走起苦逼的前端
使用Bootstrop布局

引入ECharts图形库

再见,吹牛结束。

//吾爱Java(QQ群):170936712(点击加入)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: