您的位置:首页 > 其它

我的第一个爬虫程序

2016-11-04 21:44 155 查看
我之前没接触过Python,就是想试下爬虫到底是怎么爬的,于是在网上搜些资料写个实例。

网络爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。随着信息量的增加,当我们想要获取我门需要的资料信息时,往往要费一番功夫,这时,网络爬虫就可以根据自己写的脚本去获取自己所需的信息,还可以用作企业分析用户资料和行为来提供相应的服务等。

利用Python写爬虫,第一步:要安装运行环境(不安装的话运行不了python程序),我安装的是python2.7,然后在右键->我的电脑->高级系统设置->环境变量->编辑Path值:直接在后面加上你的python程序所在的文件夹的完整路径。

第二步:我是直接在记事本上写的,保存为.py格式,取名为demo吧,我写的是获取知乎网站的网页代码,demo.py程序如下:

 

# -*- coding:utf-8 -*-
import urllib2

request = urllib2.Request("http://www.zhihu.com/")
response = urllib2.urlopen(request)

print response.read()

wait = input("wait")


最下面一句 wait=input("wait");是为了在双击demo.py时让窗口停住,不然会一闪而过,如果这句还不行的话就在cmd运行窗口中运行,windows+r进入cmd,先用dos命令进入到自己文件夹下,输入demo.py回车,下面是我的截图:

回车运行就可以了。

在点完之后,我发现我的中文乱码了,虽然在开头加了# -*- coding:utf-8 -*-,但还是没用,又搜了一些资料,加了两句代码:

import sys
type=sys.getfilesystemencoding()
又改了一行代码:print response.read().decode('utf-8').encode(type)
中文就正常出现了。

完整代码如下:

<span style="font-size:18px;"># -*- coding:utf-8 -*-
import urllib2
import sys

type=sys.getfilesystemencoding()
request = urllib2.Request("http://www.zhihu.com/")
response = urllib2.urlopen(request)

print response.read().decode('utf-8').encode(type)

wait = input("wait")</span>

第一个python程序,很简单,让我懂得了虫原来是这样爬的,
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: