您的位置：首页 > 编程语言 > Python开发

爬取今日头条收藏夹文章列表信息

2018-02-14 11:22 681 查看

从了解Python到决定做这个项目，从临近期末考试到放假在家，利用零碎的时间持续了一个月吧。完成这个项目我用了三个阶段
阶段一：
了解Python，开始学习Python的基本语法，观看相关爬虫视频，了解到爬取网页信息的简单措施
阶段二：
开始着手分析头条收藏夹页面。
头条收藏夹地址格式：

地址中有三个变量参数，as，cp，max_repin_time，as，cp在页面内可以找到源码，是基于对当前时间戳加密得到的，max_repin_time是指向下一页面URL的关键值，从页面数据列的最后一项中获取

阶段三：爬取收藏夹内所有文章的分类，标题，作者，发布时间，源地址，并存入EXCEL文件中
获取AS，CP参数

将时间戳转当地时间

使用代理

主文件

成功输出文件

2018年2月7日 22:58

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python 爬虫头条

相关文章推荐

新的分享

章节导航

添加评论
分享网址
分享文章
返回顶部