您的位置:首页 > 数据库

[转]知乎爬虫之1:开篇序言(附赠爬出的数据库)

2017-01-05 09:41 651 查看

知乎爬虫之1:开篇序言(附赠爬出的数据库)

本文由博主原创,转载请注明出处,原文链接:我的博客-知乎爬虫之开篇序言

git爬虫项目地址(关注和star在哪里~~):https://github.com/MatrixSeven/ZhihuSpider(爬虫已完结)

附赠之前爬取的数据一份(mysql): 链接:https://github.com/MatrixSeven/ZhihuSpider/README.MD 只下载不点赞,不star,差评差评~蓝瘦香菇)

在知乎看到一个可视化话题的文章,所以一时心血来潮,打算用Java也写一个爬虫并且集成到Spring中,结合ECharts生成人物关系,当然,既然爬一次,个人信息也都要获取到。
那么今天起起(结束日未知,目录也会根据实际情况进行更新),我将写一个系列的爬取知乎的爬虫文章,一直到数据可视化完成(完成后,爬虫部分将使用Scala重写)。

1. 预计可视化部分包括

  1. 人物关系可视化
  2. 人员地理分布可视化
  3. 人员大学分布可视化
  4. 男女比例可视化
  5. 用户点赞可视化

2. 预计内容和目录

  1. 开篇感言
  2. 爬虫流程设计 如何过滤重复数据
  3. 如何在爬取时创建人物关系
  • 请求分析
      登陆请求分析
    1. 跟随/关注请求分析
  • 抓取页面数据
      jsoup抽取页面内容
  • 优化
      使用多线程加速
    1. 使用队列减少数据库访问
    2. 实现LRU提高缓存命中率
  • 基于SpringBoot的简单应用
      介绍
    1. 简单配置
  • 扩展内容
      整合Mybatis
    1. 编写Jsonp跨域请求API
  • 走起苦逼的前端
      使用Bootstrop布局
    1. 引入ECharts图形库
  • 再见,吹牛结束。
  • 内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
    标签: