您的位置：首页 > 其它

爬虫：新浪详情新闻爬取总结

2018-01-12 14:35 239 查看

url=
http://news.sina.com.cn/s/wh/2018-01-12/doc-ifyqptqv8231178.shtml 需求是获取新闻内容，图片，视频，并记录媒体文件的位置。

con = res.xpath("//a[@class='source']/text() | //div[@id='article' or @id='artibody']/p/text() | //div[@class='img_wrapper']//img/@src | //div[@id='videoList0']/@id")

1.xpath 的 videoList0 记录是否有视频，如果有视频，则返回element元素。
2. 根据element 元素，在response内容用正则提取vid
3.

res = requests.get('http://news.sina.com.cn/s/wh/2018-01-12/doc-ifyqptqv8231178.shtml')

resp = res.content.decode()

pat = re.compile(r'video_id: (\d+?),')

res = etree.HTML(resp)

con = res.xpath("//a[@class='source']/text() | //div[@id='article' or @id='artibody']/p/text() | //div[@class='img_wrapper']//img/@src | //div[@id='videoList0']/@id")

for i in con:
if i == 'videoList0':
pat = re.compile(r'video_id: (\d+?),')
i = '/data/videos/...'
print(i)
print(pat.findall(resp))

澎湃新闻
/data/videos/...
　　原标题：
女子：不公开道歉，泄露个人隐私还要起诉狗主人
　　封面新闻讯（见习记者田之路何方迪记者李逢春）12日上午，封面新闻记者和沸沸扬扬的“疑索酬不成摔死小狗”一事当事人小吴取得联系，小吴详细讲述了凌晨在派出所对方道歉的一些细节。整个过程中，龙泉警方积极组织双方见面，妥善处理此事。 http://n.sinaimg.cn/news/transform/w550h401/20180112/jfMB-fyqnick9907892.jpg 　　12日临近中午，经过记者努力，终于第一次和何某一方进行了联系，不过站出来回应此事的并非何某本人。何某一方表示，此事不准备公开道歉，小吴泄露了他们的个人隐私，他们要去法院起诉。
　　12日上午，记者一直拨打何某的电话，但仍无法接通。最终，记者通过电话和何某的老公取得了联系，这也是此事引发全国网友关注后，何某一方首次站出来面对媒体说几句。
　　不过，何某的老公显然很抗拒媒体来采访此事，表示希望私下解决此事，不会像小吴要求的那样公开道歉。
　　记者表明身份后，他表示：“请你们跟警方联系，我们也在积极配合。”“那就这样子吧……”随后挂断了电话。
责任编辑：桂强 
['253193142']

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航