我的第一个爬虫程序
2016-11-04 21:44
155 查看
我之前没接触过Python,就是想试下爬虫到底是怎么爬的,于是在网上搜些资料写个实例。
网络爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。随着信息量的增加,当我们想要获取我门需要的资料信息时,往往要费一番功夫,这时,网络爬虫就可以根据自己写的脚本去获取自己所需的信息,还可以用作企业分析用户资料和行为来提供相应的服务等。
利用Python写爬虫,第一步:要安装运行环境(不安装的话运行不了python程序),我安装的是python2.7,然后在右键->我的电脑->高级系统设置->环境变量->编辑Path值:直接在后面加上你的python程序所在的文件夹的完整路径。
第二步:我是直接在记事本上写的,保存为.py格式,取名为demo吧,我写的是获取知乎网站的网页代码,demo.py程序如下:
最下面一句 wait=input("wait");是为了在双击demo.py时让窗口停住,不然会一闪而过,如果这句还不行的话就在cmd运行窗口中运行,windows+r进入cmd,先用dos命令进入到自己文件夹下,输入demo.py回车,下面是我的截图:
回车运行就可以了。
在点完之后,我发现我的中文乱码了,虽然在开头加了# -*- coding:utf-8 -*-,但还是没用,又搜了一些资料,加了两句代码:
import sys
type=sys.getfilesystemencoding()
又改了一行代码:print response.read().decode('utf-8').encode(type)
中文就正常出现了。
完整代码如下:
第一个python程序,很简单,让我懂得了虫原来是这样爬的,
网络爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。随着信息量的增加,当我们想要获取我门需要的资料信息时,往往要费一番功夫,这时,网络爬虫就可以根据自己写的脚本去获取自己所需的信息,还可以用作企业分析用户资料和行为来提供相应的服务等。
利用Python写爬虫,第一步:要安装运行环境(不安装的话运行不了python程序),我安装的是python2.7,然后在右键->我的电脑->高级系统设置->环境变量->编辑Path值:直接在后面加上你的python程序所在的文件夹的完整路径。
第二步:我是直接在记事本上写的,保存为.py格式,取名为demo吧,我写的是获取知乎网站的网页代码,demo.py程序如下:
# -*- coding:utf-8 -*- import urllib2 request = urllib2.Request("http://www.zhihu.com/") response = urllib2.urlopen(request) print response.read() wait = input("wait")
最下面一句 wait=input("wait");是为了在双击demo.py时让窗口停住,不然会一闪而过,如果这句还不行的话就在cmd运行窗口中运行,windows+r进入cmd,先用dos命令进入到自己文件夹下,输入demo.py回车,下面是我的截图:
回车运行就可以了。
在点完之后,我发现我的中文乱码了,虽然在开头加了# -*- coding:utf-8 -*-,但还是没用,又搜了一些资料,加了两句代码:
import sys
type=sys.getfilesystemencoding()
又改了一行代码:print response.read().decode('utf-8').encode(type)
中文就正常出现了。
完整代码如下:
<span style="font-size:18px;"># -*- coding:utf-8 -*- import urllib2 import sys type=sys.getfilesystemencoding() request = urllib2.Request("http://www.zhihu.com/") response = urllib2.urlopen(request) print response.read().decode('utf-8').encode(type) wait = input("wait")</span>
第一个python程序,很简单,让我懂得了虫原来是这样爬的,
相关文章推荐
- 使用beautifulsoup写的第一个小爬虫程序
- Python第一个程序小爬虫
- 第一个爬虫程序
- python:第一个简单爬虫程序
- 第一个爬虫程序
- 使用Python写的第一个网络爬虫程序
- 小虫出世----第一个爬虫程序(扒下慕课网站的图片)
- 我的第一个小爬虫程序-python
- 我的第一个爬虫程序:利用Python抓取网页上的信息
- 第一个爬虫程序
- 我的第一个python爬虫程序(从百度贴吧自动下载图片)
- 我的第一个python爬虫程序
- 第一个爬虫程序
- 第一个爬虫程序,基于requests和BeautifulSoup
- 第一个python程序,小爬虫--抓取网页图片
- python第一个爬虫小程序以及遇到问题解决(中文乱码)+批量爬取网页并保存至本地
- 第一个爬虫程序实例——初学者
- scrapy爬虫起步(1)--第一个爬虫程序
- 第一个爬虫小程序
- 第一个Python3.0 爬虫程序, 爬取百度贴吧图片