您的位置：首页 > 编程语言 > Python开发

第1.1章 scrapy之python爬虫准备

2016-10-14 11:34 232 查看

scrapy

Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试

scrapy入门教程, 它的安装参考scrapy安装指南

Beautiful Soup

执行命令

pip install beautifulsoup4

，针对的是python2,

PyQuery

PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同，所以不用再去费心去记一些奇怪的方法了，执行命令

pip install pyquery

进行安装

pyquery官网

pyspider

PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持，其快速、原生支持各种Web标准：DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可以用于页面自动化、网络监测、网页截屏以及无界面测试等。执行命令

pip install pyspider

进行安装

pyspider官网

参考资料

Python爬虫进阶一之爬虫框架概述

Python爬虫进阶二之PySpider框架安装配置

Python爬虫利器六之PyQuery的用法

Python爬虫利器二之Beautiful Soup的用法

Python爬虫实战六之抓取爱问知识人问题并保存至数据库

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python

相关文章推荐

新的分享

章节导航