您的位置:首页 > 编程语言 > Python开发

爬取今日头条收藏夹文章列表信息

2018-02-14 11:22 681 查看
从了解Python到决定做这个项目,从临近期末考试到放假在家,利用零碎的时间持续了一个月吧。完成这个项目我用了三个阶段
段一:
了解Python,开始学习Python的基本语法,观看相关爬虫视频,了解到爬取网页信息的简单措施
阶段二:
开始着手分析头条收藏夹页面。
头条收藏夹地址格式:



地址中有三个变量参数,as,cp,max_repin_time,as,cp在页面内可以找到源码,是基于对当前时间戳加密得到的,max_repin_time是指向下一页面URL的关键值,从页面数据列的最后一项中获取



阶段三:爬取收藏夹内所有文章的分类,标题,作者,发布时间,源地址,并存入EXCEL文件中
获取AS,CP参数



将时间戳转当地时间



使用代理



主文件



成功输出文件


2018年2月7日 22:58
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python 爬虫 头条