您的位置:首页 > 编程语言 > Python开发

Python之路__爬虫篇:新浪新闻爬取回顾(三)

2018-01-15 22:35 281 查看
获取首页分页 range(1, 2) 可以范围大一点

#3- 获取首页新闻分页 并拿出所有分页的新闻URL 并取得对应新闻的内容
import json

commonPage = 'http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&tag=1&format=json&page={}'
def getNewLists(commonPage):
newsList = []
for i in range(1, 2):
newsPage = commonPage.format(i)
# print(newsPage)

reContent = requests.get(newsPage)
reContent.encoding = 'utf-8'
if reContent.status_code == 200:
jsonData = json.loads(reContent.text)

for newDic in jsonData['result']['data']:
newsURL = newDic['url']
#print(newsURL)

newsList.append(getNewsDetail(newsURL))
else:
print('分页结束******')
break
    return newsList
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: