您的位置:首页 > 编程语言 > Python开发

记一次python+selenium+chrome爬虫

2017-10-15 11:41 615 查看
爬虫过程中,只要是稍微复杂一些的页面,经常会遇到经JS生成的数据,导致抓取的页面和我们在浏览器中看到的页面不一致。网站开发者出于性能、反爬虫等考虑进行编写的同时,也给我们爬虫带来了挑战,因为这些数据用请求简单静态页面的方式是获取不到的。

我把“经JS生成的数据”分为两类:1,通过AJAX直接返回的数据(如JSON);2,执行JS后浏览器重新渲染的数据。前者和抓取普通页面没有什么区别:抓包分析url、请求参数再请求即可拿到数据,而后者就比较棘手了。后者又可以继续细分成JS处理原始数据、JS监听用户事件等,在理想条件下,我们可以通过分析JS代码、调用执行JS的python库来完成相应操作,但是在JS比较复杂的情况下,这种办法往往效率不高。

selenium是一个强大的浏览器自动化测试l框架,配合相应驱动与浏览器能够模拟浏览器操作,从而实现在浏览器环境下进行数据抓取。这几天在用python写一个抓取京东商城“小米手机”条目下所有信息的过程中,用到了selenium+chrome。大致流程:1,输入小米手机,点击搜索;2,抓取页面信息;3,翻页之后抓取页面信息。流程看似简单,其中却碰到各种问题,总结一下。

1,未考虑事件触发的AJAX:一个页面应该展示六十种商品,但是只能抓取到三十个。查看源码发现DOM中只有30种商品,该网站在页面滑动到最下端时才会执行AJAX,获取剩下的商品信息。解决方案是调用JS执行滚动触发AJAX。

2,页面没有加载完成就执行操作:包括通过selenium获取元素、执行JS。selenium本质上在操作浏览器、读取浏览器信息。而浏览器渲染DOM、运行JS代码都需要时间,在DOM结构渲染完毕之前如果执行一些操作会达不到预期的效果。上述滚动操作就会经常失败,原因是我在浏览器还没有高度的时候就执行滚动了,而后我加上time.sleep()强制等待代码后就正常了。这种方法简便但是由于等待的是固定时间,既耗时代码也不够健壮(时间太长或太短),selenium有一个wait.until()方法,可以用此判断元素是否已加载、是否可以点击等,也可以设置最长等待时间,若超时则抛出TimeoutException。

3,没有观察页面就解析:京东有些商品没有icons(免邮等标签),甚至没有商家信息(京东自营),如果不加以判断元素是否存在的话就会抛出NoneType异常。一开始我想当然地认为商家信息应该是都有的,找不到bug耗费了比较长时间。还有比较难注意到的一点是元素属性名称不同,在页面滑动到最下端AJAX加载完页面剩下的商品信息时,虽然DOM会完整加载,但只有页面显示过的商品的img元素才有src属性,其他商品的图片链接保存在另一个属性里(按需载入图片优化体验)。另外还有一些CSS选择器的低级失误。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐