Python之路__爬虫篇:新浪新闻爬取回顾(三)
2018-01-15 22:35
281 查看
获取首页分页 range(1, 2) 可以范围大一点
#3- 获取首页新闻分页 并拿出所有分页的新闻URL 并取得对应新闻的内容 import json commonPage = 'http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&tag=1&format=json&page={}' def getNewLists(commonPage): newsList = [] for i in range(1, 2): newsPage = commonPage.format(i) # print(newsPage) reContent = requests.get(newsPage) reContent.encoding = 'utf-8' if reContent.status_code == 200: jsonData = json.loads(reContent.text) for newDic in jsonData['result']['data']: newsURL = newDic['url'] #print(newsURL) newsList.append(getNewsDetail(newsURL)) else: print('分页结束******') break return newsList
相关文章推荐
- Python之路__爬虫篇:新浪新闻爬取回顾(一)
- Python之路__爬虫篇:新浪新闻爬取回顾(二)
- Python之路__爬虫篇:新浪新闻爬取回顾(四)
- python 爬取新浪国内新闻含获取js里的数据
- 网易、腾讯、新浪手机新闻客户端横向对比评测
- python爬虫 根据关键字在新浪网站查询跟关键字有关的新闻条数(按照时间查询)
- 朴素贝叶斯新闻分类,新浪SAE碰到的问题
- 中国社会热点新闻十年回顾
- 如何抓取新浪新闻信息
- php使用pthreads v3多线程的抓取新浪新闻信息
- 网页数据抓取之新浪新闻数据
- 爬取新浪国内新闻首页
- 新浪网的完美图片新闻切换效果
- ITeye 2012年8月最后一周重要新闻回顾
- 新浪首页改版,您还去新浪看新闻吗?
- fsockopen采集新浪 http://roll.news.sina.com.cn/news/gnxw/zs-pl/index_1.shtml 新闻列表以及对应文章页
- 新浪滚动新闻的json数据获取页面
- Python爬虫:新浪新闻详情页的数据抓取(函数版)
- python爬虫之获取新浪新闻信息
- 第六课 Python新浪新闻爬虫最终整理总结