您的位置:首页 > 其它

爬虫:新浪详情新闻爬取总结

2018-01-12 14:35 239 查看
url=
http://news.sina.com.cn/s/wh/2018-01-12/doc-ifyqptqv8231178.shtml 需求是获取新闻内容,图片,视频,并记录媒体文件的位置。

con = res.xpath("//a[@class='source']/text() | //div[@id='article' or @id='artibody']/p/text() | //div[@class='img_wrapper']//img/@src | //div[@id='videoList0']/@id")


1.xpath 的 videoList0 记录是否有视频,如果有视频,则返回element元素。
2. 根据element 元素,在response内容用正则提取vid
3.
res = requests.get('http://news.sina.com.cn/s/wh/2018-01-12/doc-ifyqptqv8231178.shtml')

resp = res.content.decode()

pat = re.compile(r'video_id: (\d+?),')

res = etree.HTML(resp)

con = res.xpath("//a[@class='source']/text() | //div[@id='article' or @id='artibody']/p/text() | //div[@class='img_wrapper']//img/@src | //div[@id='videoList0']/@id")

for i in con:
if i == 'videoList0':
pat = re.compile(r'video_id: (\d+?),')
i = '/data/videos/...'
print(i)
print(pat.findall(resp))

澎湃新闻
/data/videos/...
  原标题:
女子:不公开道歉,泄露个人隐私还要起诉狗主人
  封面新闻讯(见习记者田之路何方迪记者李逢春)12日上午,封面新闻记者和沸沸扬扬的“疑索酬不成摔死小狗”一事当事人小吴取得联系,小吴详细讲述了凌晨在派出所对方道歉的一些细节。整个过程中,龙泉警方积极组织双方见面,妥善处理此事。 http://n.sinaimg.cn/news/transform/w550h401/20180112/jfMB-fyqnick9907892.jpg   12日临近中午,经过记者努力,终于第一次和何某一方进行了联系,不过站出来回应此事的并非何某本人。何某一方表示,此事不准备公开道歉,小吴泄露了他们的个人隐私,他们要去法院起诉。
  12日上午,记者一直拨打何某的电话,但仍无法接通。最终,记者通过电话和何某的老公取得了联系,这也是此事引发全国网友关注后,何某一方首次站出来面对媒体说几句。
  不过,何某的老公显然很抗拒媒体来采访此事,表示希望私下解决此事,不会像小吴要求的那样公开道歉。
  记者表明身份后,他表示:“请你们跟警方联系,我们也在积极配合。”“那就这样子吧……”随后挂断了电话。
责任编辑:桂强 
['253193142']
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: