您的位置:首页 > 编程语言 > Python开发

第1.1章 scrapy之python爬虫准备

2016-10-14 11:34 232 查看
scrapy

Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试

scrapy入门教程, 它的安装参考scrapy安装指南

Beautiful Soup

执行命令
pip install beautifulsoup4
,针对的是python2,

PyQuery

PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了,执行命令
pip install pyquery
进行安装

pyquery官网

pyspider

PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持,其快速、原生支持各种Web标准:DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可以用于页面自动化、网络监测、网页截屏以及无界面测试等。执行命令
pip install pyspider
进行安装

pyspider官网

参考资料

Python爬虫进阶一之爬虫框架概述

Python爬虫进阶二之PySpider框架安装配置

Python爬虫利器六之PyQuery的用法

Python爬虫利器二之Beautiful Soup的用法

Python爬虫实战六之抓取爱问知识人问题并保存至数据库
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python