您的位置:首页 > 其它

scrapy使用笔记

2017-02-10 17:30 183 查看
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/qq_25597251/article/details/54972514

我是用anaconda安装的scrapy

安装完成,使用scrapy 建立爬虫工程,之后把工程文件夹整个移动到ecipse,配置下run configure就可以运行了

初步了解了下xpath语法,会简单地使用xpath抠取网页里面的内容

例子: //td[@class='hello'] 选取所有class标签为hello的td节点

   //td[1] 选取第一个td节点

当然也可以嵌套搜索

例子: parent = response.xpath('//td[@class="test"]')

child = parent.xpath('.//div[1]/text()')

记得使用extract()方法把结果转换为list

学习了结合item和pipeline处理爬取到的数据

这个pipeline是要在setting文档里面声明的,前面是类名,后面是优先级,很有趣

收工!

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: