scrapy使用笔记
2017-02-10 17:30
183 查看
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_25597251/article/details/54972514
我是用anaconda安装的scrapy
安装完成,使用scrapy 建立爬虫工程,之后把工程文件夹整个移动到ecipse,配置下run configure就可以运行了
初步了解了下xpath语法,会简单地使用xpath抠取网页里面的内容
例子: //td[@class='hello'] 选取所有class标签为hello的td节点
//td[1] 选取第一个td节点
当然也可以嵌套搜索
例子: parent = response.xpath('//td[@class="test"]')
child = parent.xpath('.//div[1]/text()')
记得使用extract()方法把结果转换为list
学习了结合item和pipeline处理爬取到的数据
这个pipeline是要在setting文档里面声明的,前面是类名,后面是优先级,很有趣
收工!
相关文章推荐
- Scrapy笔记(Ⅰ):基本使用与命令行工具
- python爬虫学习笔记六:Scrapy爬虫的使用步骤
- Scrapy 学习笔记 - 使用WingIDE调试
- scrapy框架使用示例_学习笔记
- 【python爬虫】scrapy框架笔记(一):创建工程,使用scrapy shell,xpath
- Python爬虫框架Scrapy 学习笔记 5 ------- 使用pipelines过滤敏感词
- Scrapy 入门笔记(4) --- 使用 Pipeline 保存数据
- Scrapy 入门学习笔记(3) -- 使用 Item 类转换传输数据以及ItemLoader 机制解析
- scrapy使用笔记
- c++ stl iostream 使用笔记二
- [笔记] 多继承下不同基类之同名函数的使用
- c++ stl iostream 使用笔记三
- C#学习笔记(二十一):使用文件基础
- PHP学习笔记(3)----phpmyadmin的安装与使用[原创]
- BeanUtils使用笔记
- 我的oracle笔记五(oracle工具使用方面)
- C# 学习笔记 -- 第二天 使用注释提高代码可读性
- Chap 4 学习笔记-使用C#存储变量数据
- C#学习笔记(二十一):使用文件基础
- [学习笔记][C++Primer Plus]使用cout格式化输出字符串