您的位置：首页 > 编程语言 > Python开发

记一次python+selenium+chrome爬虫

2017-10-15 11:41 615 查看

爬虫过程中，只要是稍微复杂一些的页面，经常会遇到经JS生成的数据，导致抓取的页面和我们在浏览器中看到的页面不一致。网站开发者出于性能、反爬虫等考虑进行编写的同时，也给我们爬虫带来了挑战，因为这些数据用请求简单静态页面的方式是获取不到的。

我把“经JS生成的数据”分为两类：1，通过AJAX直接返回的数据（如JSON）；2，执行JS后浏览器重新渲染的数据。前者和抓取普通页面没有什么区别：抓包分析url、请求参数再请求即可拿到数据，而后者就比较棘手了。后者又可以继续细分成JS处理原始数据、JS监听用户事件等，在理想条件下，我们可以通过分析JS代码、调用执行JS的python库来完成相应操作，但是在JS比较复杂的情况下，这种办法往往效率不高。

selenium是一个强大的浏览器自动化测试l框架，配合相应驱动与浏览器能够模拟浏览器操作，从而实现在浏览器环境下进行数据抓取。这几天在用python写一个抓取京东商城“小米手机”条目下所有信息的过程中，用到了selenium+chrome。大致流程：1，输入小米手机，点击搜索；2，抓取页面信息；3，翻页之后抓取页面信息。流程看似简单，其中却碰到各种问题，总结一下。

1，未考虑事件触发的AJAX：一个页面应该展示六十种商品，但是只能抓取到三十个。查看源码发现DOM中只有30种商品，该网站在页面滑动到最下端时才会执行AJAX，获取剩下的商品信息。解决方案是调用JS执行滚动触发AJAX。

2，页面没有加载完成就执行操作：包括通过selenium获取元素、执行JS。selenium本质上在操作浏览器、读取浏览器信息。而浏览器渲染DOM、运行JS代码都需要时间，在DOM结构渲染完毕之前如果执行一些操作会达不到预期的效果。上述滚动操作就会经常失败，原因是我在浏览器还没有高度的时候就执行滚动了，而后我加上time.sleep()强制等待代码后就正常了。这种方法简便但是由于等待的是固定时间，既耗时代码也不够健壮（时间太长或太短），selenium有一个wait.until()方法，可以用此判断元素是否已加载、是否可以点击等，也可以设置最长等待时间，若超时则抛出TimeoutException。

3，没有观察页面就解析：京东有些商品没有icons（免邮等标签），甚至没有商家信息（京东自营），如果不加以判断元素是否存在的话就会抛出NoneType异常。一开始我想当然地认为商家信息应该是都有的，找不到bug耗费了比较长时间。还有比较难注意到的一点是元素属性名称不同，在页面滑动到最下端AJAX加载完页面剩下的商品信息时，虽然DOM会完整加载，但只有页面显示过的商品的img元素才有src属性，其他商品的图片链接保存在另一个属性里（按需载入图片优化体验）。另外还有一些CSS选择器的低级失误。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航