爬虫:新浪详情新闻爬取总结
2018-01-12 14:35
239 查看
url=
http://news.sina.com.cn/s/wh/2018-01-12/doc-ifyqptqv8231178.shtml 需求是获取新闻内容,图片,视频,并记录媒体文件的位置。
1.xpath 的 videoList0 记录是否有视频,如果有视频,则返回element元素。
2. 根据element 元素,在response内容用正则提取vid
3.
http://news.sina.com.cn/s/wh/2018-01-12/doc-ifyqptqv8231178.shtml 需求是获取新闻内容,图片,视频,并记录媒体文件的位置。
con = res.xpath("//a[@class='source']/text() | //div[@id='article' or @id='artibody']/p/text() | //div[@class='img_wrapper']//img/@src | //div[@id='videoList0']/@id")
1.xpath 的 videoList0 记录是否有视频,如果有视频,则返回element元素。
2. 根据element 元素,在response内容用正则提取vid
3.
res = requests.get('http://news.sina.com.cn/s/wh/2018-01-12/doc-ifyqptqv8231178.shtml') resp = res.content.decode() pat = re.compile(r'video_id: (\d+?),') res = etree.HTML(resp) con = res.xpath("//a[@class='source']/text() | //div[@id='article' or @id='artibody']/p/text() | //div[@class='img_wrapper']//img/@src | //div[@id='videoList0']/@id") for i in con: if i == 'videoList0': pat = re.compile(r'video_id: (\d+?),') i = '/data/videos/...' print(i) print(pat.findall(resp))
澎湃新闻 /data/videos/... 原标题: 女子:不公开道歉,泄露个人隐私还要起诉狗主人 封面新闻讯(见习记者田之路何方迪记者李逢春)12日上午,封面新闻记者和沸沸扬扬的“疑索酬不成摔死小狗”一事当事人小吴取得联系,小吴详细讲述了凌晨在派出所对方道歉的一些细节。整个过程中,龙泉警方积极组织双方见面,妥善处理此事。 http://n.sinaimg.cn/news/transform/w550h401/20180112/jfMB-fyqnick9907892.jpg 12日临近中午,经过记者努力,终于第一次和何某一方进行了联系,不过站出来回应此事的并非何某本人。何某一方表示,此事不准备公开道歉,小吴泄露了他们的个人隐私,他们要去法院起诉。 12日上午,记者一直拨打何某的电话,但仍无法接通。最终,记者通过电话和何某的老公取得了联系,这也是此事引发全国网友关注后,何某一方首次站出来面对媒体说几句。 不过,何某的老公显然很抗拒媒体来采访此事,表示希望私下解决此事,不会像小吴要求的那样公开道歉。 记者表明身份后,他表示:“请你们跟警方联系,我们也在积极配合。”“那就这样子吧……”随后挂断了电话。 责任编辑:桂强 ['253193142']
相关文章推荐
- Python爬虫:新浪新闻详情页的数据抓取(函数版)
- 第六课 Python新浪新闻爬虫最终整理总结
- python爬虫之获取新浪新闻信息
- python3爬虫-爬取新浪新闻首页所有新闻标题
- nodejs爬虫热点新闻,明星人物(百度,微博,新浪,网易,贴吧,微博明星,百度明星)
- 新浪新闻爬虫程序
- 门户级UGC系统的技术进化路线——新浪新闻评论系统的架构演进和经验总结
- python3+urllib撸新浪滚动新闻爬虫
- 新浪新闻评论系统的架构演进和经验总结
- Python 编写新浪新闻网络爬虫(学习整理)
- python爬虫 根据关键字在新浪网站查询跟关键字有关的新闻条数(按照时间查询)
- python2.7 爬虫初体验爬取新浪国内新闻_20161130
- 门户级UGC系统的技术进化路线——新浪新闻评论系统的架构演进和经验总结
- Python爬虫:抓取新浪新闻数据
- Scrapy爬虫新浪,网易,腾讯新闻及评论
- Python爬虫爬取新浪新闻内容
- 爬虫学习——爬虫之新浪新闻
- 19Python爬虫--爬取新浪新闻标题并保存到数据库
- 用python爬虫抓站的一些技巧总结
- nodejs爬虫抓取数据乱码问题总结