您的位置：首页 > 其它

我的第一个爬虫程序

2016-11-04 21:44 155 查看

我之前没接触过Python，就是想试下爬虫到底是怎么爬的，于是在网上搜些资料写个实例。

网络爬虫：是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。随着信息量的增加，当我们想要获取我门需要的资料信息时，往往要费一番功夫，这时，网络爬虫就可以根据自己写的脚本去获取自己所需的信息，还可以用作企业分析用户资料和行为来提供相应的服务等。

利用Python写爬虫，第一步：要安装运行环境（不安装的话运行不了python程序），我安装的是python2.7,然后在右键->我的电脑->高级系统设置->环境变量->编辑Path值：直接在后面加上你的python程序所在的文件夹的完整路径。

第二步：我是直接在记事本上写的，保存为.py格式，取名为demo吧，我写的是获取知乎网站的网页代码，demo.py程序如下：

# -*- coding:utf-8 -*-
import urllib2

request = urllib2.Request("http://www.zhihu.com/")
response = urllib2.urlopen(request)

print response.read()

wait = input("wait")

最下面一句 wait=input("wait")；是为了在双击demo.py时让窗口停住，不然会一闪而过，如果这句还不行的话就在cmd运行窗口中运行，windows+r进入cmd，先用dos命令进入到自己文件夹下，输入demo.py回车，下面是我的截图：

回车运行就可以了。

在点完之后，我发现我的中文乱码了，虽然在开头加了# -*- coding:utf-8 -*-，但还是没用，又搜了一些资料，加了两句代码：

import sys
type=sys.getfilesystemencoding()
又改了一行代码：print response.read().decode('utf-8').encode(type)
中文就正常出现了。

完整代码如下：

<span style="font-size:18px;"># -*- coding:utf-8 -*-
import urllib2
import sys

type=sys.getfilesystemencoding()
request = urllib2.Request("http://www.zhihu.com/")
response = urllib2.urlopen(request)

print response.read().decode('utf-8').encode(type)

wait = input("wait")</span>

第一个python程序，很简单，让我懂得了虫原来是这样爬的，

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航