python爬虫入门笔记
2017-02-25 19:34
405 查看
Python爬虫入门
概念:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。
爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。
Python爬虫入门之Urllib库的基本使用
爬网页源码:
import urllib2
response = urllib2.urlopen(“http://news.baidu.com/“)
print response.read()
urllib2库里面的urlopen方法,传入一个URL
response对象有一个read方法,可以返回获取到的网页内容
效果同上:构造了requestimport urllib2
request = urllib2.Request(“http://www.baidu.com“)
response = urllib2.urlopen(request)
print response.read()
上面是网页的抓取,对于动态网页我们需要动态的传递参数(如登录注册时)
数据传送分为POST和GET两种方式,两种方式有什么区别呢?
最重要的区别是GET方式是直接以链接形式访问,链接中包含了所有的参数,当然如果包含了密码的话是一种不安全的选择,不过你可以直观地看到自己提交了什么内容。POST则不会在网址上显示所有的参数
POST方式:
import urllib
import urllib2
values = {“username”:”**@qq.com”,”password”:”XXXX”} #字典 values
data = urllib.urlencode(values) #
url = “https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn”
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()
GET方式:
至于GET方式我们可以直接把参数写到网址上面,直接构建一个带参数的URL出来即可。
import urllib
import urllib2
values = {“username”:”**@qq.com”,”password”:”XXXX”} #字典 values
data = urllib.urlencode(values)
url = “http://passport.csdn.net/account/login”
geturl = url + “?”+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
print response.read()
Python爬虫入门之Urllib库的高级用法
1、设置Headers
import urllib
import urllib2
url = ‘http://www.server.com/login’
user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)’
values = {‘username’ : ‘cqc’, ‘password’ : ‘XXXX’ }
headers = { ‘User-Agent’ : user_agent }
data = urllib.urlencode(values)
request = urllib2.Request(url, data, headers)
response = urllib2.urlopen(request)
page = response.read()
设置了一个headers,在构建request时传入,在请求时,就加入了headers传送,服务器若识别了是浏览器发来的请求,就会得到响应。
另外,我们还有对付”反盗链”的方式,对付防盗链,服务器会识别headers中的referer是不是它自己,如果不是,有的服务器不会响应,所以我们还可以在headers中加入referer
headers = { ‘User-Agent’ : ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)’ ,
‘Referer’:’http://www.zhihu.com/articles’ }
Headers属性
User-Agent : 有些服务器或 Proxy 会通过该值来判断是否是浏览器发出的请求
Content-Type : 在使用 REST 接口时,服务器会检查该值,用来确定 HTTP Body 中的内容该怎样解析。
application/xml : 在 XML RPC,如 RESTful/SOAP 调用时使用
application/json : 在 JSON RPC 调用时使用
application/x-www-form-urlencoded : 浏览器提交 Web 表单时使用
在使用服务器提供的 RESTful 或 SOAP 服务时, Content-Type 设置错误会导致服务器拒绝服务
2、Proxy的设置
urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。假如一个网站它会检测某一段时间某个IP 的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理。
import urllib2
enable_proxy = True
proxy_handler = urllib2.ProxyHandler({“http” : ‘http://some-proxy.com:8080‘})
null_proxy_handler = urllib2.ProxyHandler({})
if enable_proxy:
opener = urllib2.build_opener(proxy_handler)
else:
opener = urllib2.build_opener(null_proxy_handler)
urllib2.install_opener(opener)
3、Timeout设置
import urllib2
response = urllib2.urlopen(‘http://www.baidu.com‘, timeout=10)
import urllib2
response = urllib2.urlopen(‘http://www.baidu.com‘,data, 10)
Python爬虫入门之URLError异常处理
1、Urlerror
产生urlerror可能的原因:网络未连接;连接不到特定的服务器;服务器不存在。在代码中,我们需要用try-except语句来包围并捕获相应的异常。
import urllib2
requset = urllib2.Request(‘http://www.xxxxx.com‘)
try:
urllib2.urlopen(request)
except urllib2.URLError, e:
print e.reason
我们利用了 urlopen方法访问了一个不存在的网址,运行结果如下:[Errno 11004] getaddrinfo failed 它说明了错误代号是11004,错误原因是 getaddrinfo failed
2、HTTPError
HTTPError实例产生后会有一个code属性,这就是是服务器发送的相关错误号。
因为urllib2可以为你处理重定向,也就是3开头的代号可以被处理,并且100-299范围的号码指示成功,所以你只能看到400-599的错误号码。
import urllib2
req = urllib2.Request(‘http://blog.csdn.net/cqcre‘)
try:
urllib2.urlopen(req)
except urllib2.HTTPError, e:
print e.code
print e.reason
HTTPError的父类是URLError,根据编程经验,父类的异常应当写到子类异常的后面,如果子类捕获不到,那么可以捕获父类的异常,所以上述的代码可以这么改写
import urllib2
req = urllib2.Request(‘http://blog.csdn.net/cqcre‘)
try:
urllib2.urlopen(req)
except urllib2.HTTPError, e:
print e.code
except urllib2.URLError, e:
print e.reason
else:
print “OK”
Python爬虫入门之Cookie的使用
为什么要使用Cookie呢?
Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)
比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到目的了。
1、Opener
当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。在前面,我们都是使用的默认的opener,也就是urlopen。它是一个特殊的opener,可以理解成opener的一个特殊实例,传入的参数仅仅是url,data,timeout。
如果我们需要用到Cookie,只用这个opener是不能达到目的的,所以我们需要创建更一般的opener来实现对Cookie的设置。
2、Cookielib
cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源。Cookielib模块非常强大,我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送,比如可以实现模拟登录功能。该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。
它们的关系:CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar
1)获取cookie保存到变量
import urllib2
import cookielib
声明一个CookieJar对象实例来保存cookie
cookie = cookielib.CookieJar()利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
handler=urllib2.HTTPCookieProcessor(cookie)通过handler来构建opener
opener = urllib2.build_opener(handler)此处的open方法同urllib2的urlopen方法,也可以传入request
response = opener.open(‘http://www.baidu.com‘)for item in cookie:
print ‘Name = ‘+item.name
print ‘Value = ‘+item.value
2)获取cookie保存到文件
FileCookieJar这个对象了,在这里我们使用它的子类MozillaCookieJar来实现Cookie的保存。
import cookielib
import urllib2
设置保存cookie的文件,同级目录下的cookie.txt
filename = ‘cookie.txt’声明一个MozillaCookieJar对象实例来保存cookie,之后写入文件
cookie = cookielib.MozillaCookieJar(filename)利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
handler = urllib2.HTTPCookieProcessor(cookie)通过handler来构建opener
opener = urllib2.build_opener(handler)创建一个请求,原理同urllib2的urlopen
response = opener.open(“http://www.baidu.com“)保存cookie到文件
cookie.save(ignore_discard=True, ignore_expires=True)ignore_discard的意思是即使cookies将被丢弃也将它保存下来,ignore_expires的意思是如果在该文件中cookies已经存在,则覆盖原文件写入,在这里,我们将这两个全部设置为True。
3)从文件中获取cookie并访问
import cookielib
import urllib2
创建MozillaCookieJar实例对象
cookie = cookielib.MozillaCookieJar()从文件中读取cookie内容到变量
cookie.load(‘cookie.txt’, ignore_discard=True, ignore_expires=True)创建请求的request
req = urllib2.Request(“http://www.baidu.com“)利用urllib2的build_opener方法创建一个opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))response = opener.open(req)
print response.read()
设想,如果我们的 cookie.txt 文件中保存的是某个人登录百度的cookie,那么我们提取出这个cookie文件内容,就可以用以上方法模拟这个人的账号登录百度。
4)利用cookie模拟网站登录
import urllib
import urllib2
import cookielib
filename = ‘cookie.txt’
声明一个MozillaCookieJar对象实例来保存cookie,之后写入文件
cookie = cookielib.MozillaCookieJar(filename)opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
postdata = urllib.urlencode({
‘stuid’:’201200131012’,
‘pwd’:’23342321’
})
登录教务系统的URL
loginUrl = ‘http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login’模拟登录,并把cookie保存到变量
result = opener.open(loginUrl,postdata)保存cookie到cookie.txt中
cookie.save(ignore_discard=True, ignore_expires=True)利用cookie请求访问另一个网址,此网址是成绩查询网址
gradeUrl = ‘http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre’请求访问成绩查询网址
result = opener.open(gradeUrl)print result.read()
以上程序的原理如下
创建一个带有cookie的opener,在访问登录的URL时,将登录后的cookie保存下来,然后利用这个cookie来访问其他网址。
如登录之后才能查看的成绩查询呀,本学期课表呀等等网址,模拟登录就这么实现啦
Python爬虫入门之正则表达式
1、正则表达式概念
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
正则表达式的大致匹配过程是:
1.依次拿出表达式和文本中的字符比较,
2.如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。
3.如果表达式中有量词或边界,这个过程会稍微有一些不同。
2、正则表达式的语法规则如下图:
3、正则表达式相关注解:
(1)数量词的贪婪模式与非贪婪模式
正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;非贪婪的则相反,总是尝试匹配尽可能少的字符。例如:正则表达式”ab*”如果用于查找”abbbc”,将找到”abbb”。而如果使用非贪婪的数量词”ab*?”,将找到”a”。
注:我们一般使用非贪婪模式来提取。
(2)反斜杠问题
与大多数编程语言相同,正则表达式里使用”\”作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符”\”,那么使用编程语言表示的正则表达式里将需要4个反斜杠”\\”:前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。
Python里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可以使用r”\”表示。同样,匹配一个数字的”\d”可以写成r”\d”。有了原生字符串,妈妈也不用担心是不是漏写了反斜杠,写出来的表达式也更直观勒。
4、python Re 模块
Python 自带了re模块,它提供了对正则表达式的支持。主要用到的方法列举如下:
返回pattern对象
re.compile(string[,flag])以下为匹配所用函数
re.match(pattern, string[, flags])re.search(pattern, string[, flags])
re.split(pattern, string[, maxsplit])
re.findall(pattern, string[, flags])
re.finditer(pattern, string[, flags])
re.sub(pattern, repl, string[, count])
re.subn(pattern, repl, string[, count])
pattern = re.compile(r’hello’) #返回pattern对象
在参数中我们传入了原生字符串对象,通过compile方法编译生成一个pattern对象,然后我们利用这个对象来进行进一步的匹配。
参数flag是匹配模式,取值可以使用按位或运算符’|’表示同时生效,比如re.I | re.M。
可选值有:
• re.I(全拼:IGNORECASE): 忽略大小写(括号内是完整写法,下同)
• re.M(全拼:MULTILINE): 多行模式,改变’^’和’$’的行为(参见上图)
• re.S(全拼:DOTALL): 点任意匹配模式,改变’.’的行为
• re.L(全拼:LOCALE): 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定
• re.U(全拼:UNICODE): 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性
• re.X(全拼:VERBOSE): 详细模式。这个模式下正则表达式可以是多行,忽略空白字符,并可以加入注释。
(1)re.match(pattern, string[, flags])
当需要提取的内容只有一个,或是只需要获取第一次成功匹配的内容时,可以使用Match()方法。当使用Match()方法时,只要在某一位置匹配成功,就不再继续尝试匹配,并返回一个Match类型的对象。注意:Match只从位置0开始匹配,除非使用Pattern对象指定pos参数。
这个方法将会从string(我们要匹配的字符串)的开头开始,尝试匹配pattern,一直向后匹配,如果遇到无法匹配的字符,立即返回None,如果匹配未结束已经到达string的末尾,也会返回None。两个结果均表示匹配失败,否则匹配pattern成功,同时匹配终止,不再对string向后匹配。例子如下:
导入re模块
import re将正则表达式编译成Pattern对象,注意hello前面的r的意思是“原生字符串”
pattern = re.compile(r’hello’)使用re.match匹配文本,获得匹配结果,无法匹配时将返回None
result1 = re.match(pattern,’hello’)result2 = re.match(pattern,’helloo CQC!’)
result3 = re.match(pattern,’helo CQC!’)
result4 = re.match(pattern,’hello CQC!’)
如果1匹配成功
if result1:# 使用Match获得分组信息
print result1.group()
else:
print ‘1匹配失败!’
如果2匹配成功
if result2:# 使用Match获得分组信息
print result2.group()
else:
print ‘2匹配失败!’
如果3匹配成功
if result3:# 使用Match获得分组信息
print result3.group()
else:
print ‘3匹配失败!’
如果4匹配成功
if result4:# 使用Match获得分组信息
print result4.group()
else:
print ‘4匹配失败!’
(2)re.search(pattern, string[, flags])
search方法与match方法极其类似,区别在于match()函数只检测re是不是在string的开始位置匹配,search()会扫描整个string查找匹配,match()只有在0位置匹配成功的话才有返回,如果不是开始位置匹配成功的话,match()就返回None。同样,search方法的返回对象同样match()返回对象的方法和属性。我们用一个例子感受一下
导入re模块
import re将正则表达式编译成Pattern对象
pattern = re.compile(r’world’)使用search()查找匹配的子串,不存在能匹配的子串时将返回None
这个例子中使用match()无法成功匹配
match = re.search(pattern,’hello world!’)if match:
# 使用Match获得分组信息
print match.group()
输出
world
(3)re.split(pattern, string[, maxsplit])按照能够匹配的子串将string分割后返回列表。maxsplit用于指定最大分割次数,不指定将全部分割。我们通过下面的例子感受一下。
例子中的 r’\d+’是什么意思呢?\d是匹配数字字符[0-9],+匹配一个或多个放在一起是匹配一个或多个数字字符,比如:’1‘、’34‘、’9
import re
pattern = re.compile(r’\d+’)
print re.split(pattern,’one1two2three3four4’)
输出
[‘one’, ‘two’, ‘three’, ‘four’, ”]
(4)re.findall(pattern, string[, flags])搜索string,以列表形式返回全部能匹配的子串。我们通过这个例子来感受一下
import re
pattern = re.compile(r’\d+’)
print re.findall(pattern,’one1two2three3four4’)
输出
[‘1’, ‘2’, ‘3’, ‘4’]
(5)re.finditer(pattern, string[, flags])搜索string,返回一个顺序访问每一个匹配结果(Match对象)的迭代器。我们通过下面的例子来感受一下
import re
pattern = re.compile(r’\d+’)
for m in re.finditer(pattern,’one1two2three3four4’):
print m.group(),
输出
1 2 3 4
(6)re.sub(pattern, repl, string[, count])使用repl替换string中每一个匹配的子串后返回替换后的字符串。
当repl是一个字符串时,可以使用\id或\g、\g引用分组,但不能使用编号0。
当repl是一个方法时,这个方法应当只接受一个参数(Match对象),并返回一个字符串用于替换(返回的字符串中不能再引用分组)。
count用于指定最多替换次数,不指定时全部替换
import re
pattern = re.compile(r’(\w+) (\w+)’)
s = ‘i say, hello world!’
print re.sub(pattern,r’\2 \1’, s)
def func(m):
return m.group(1).title() + ’ ’ + m.group(2).title()
print re.sub(pattern,func, s)
output
say i, world hello!
I Say, Hello World!
(7)re.subn(pattern, repl, string[, count])返回 (sub(repl, string[, count]), 替换次数)。
import re
pattern = re.compile(r’(\w+) (\w+)’)
s = ‘i say, hello world!’
print re.subn(pattern,r’\2 \1’, s)
def func(m):
return m.group(1).title() + ’ ’ + m.group(2).title()
print re.subn(pattern,func, s)
output
(‘say i, world hello!’, 2)
(‘I Say, Hello World!’, 2)
关于组的小结:a、group()等于group(0),代表整个匹配的子串
b、group(1),代表编号为1的捕获组内容;group(2)代表编号为2的捕获组内容
c、指定多个参数时,以tuple形式返回。
d、普通捕获组与命名捕获组没有混合编号规则。捕获组的编号统一是按照“(”出现的顺序,从左到右,从1开始进行编号的。
总结:group就是返回捕获的内容。参数0或无参数表示整个正则表达式捕获的文本,1表示第1个括号匹配的内容,2表示第2个括号匹配的内容,以此类推。
相关文章推荐
- Python爬虫(入门+进阶)学习笔记 1-2 初识Python爬虫
- Python爬虫(入门+进阶)学习笔记 1-6 浏览器抓包及headers设置(案例一:爬取知乎)
- Python爬虫(入门+进阶)学习笔记 1-8 使用自动化神器Selenium爬取动态网页(案例三:爬取淘宝商品)
- Python爬虫笔记----爬虫技术入门(1)
- Python爬虫学习笔记(2):多线程入门
- [Python爬虫笔记][随意找个博客入门(一)]
- python爬虫入门笔记:用scrapy爬豆瓣
- Python爬虫入门笔记(序)
- Python爬虫(入门+进阶)学习笔记 1-1 什么是爬虫?
- Python爬虫入门笔记:urllib库的使用2
- python爬虫入门笔记:Requests库
- Python 学习笔记3 - 定向爬虫入门
- Python爬虫入门笔记:正则表达式
- Python爬虫(入门+进阶)学习笔记 1-3 使用Requests爬取豆瓣短评
- Python爬虫(入门+进阶)学习笔记 1-5 使用pandas保存豆瓣短评数据
- python爬虫入门笔记:XPath与lxml库
- python 爬虫 学习笔记(一)Scrapy框架入门
- python小白入门学习笔记-爬虫入门
- Python爬虫(入门+进阶)学习笔记 1-4 使用Xpath解析豆瓣短评
- Python爬虫(入门+进阶)学习笔记 1-7 数据入库之MongoDB(案例二:爬取拉勾)