百度搜索引擎和必应搜索引擎搜索内容简单爬取Python
2017-05-18 16:40
197 查看
这个博客用于记录我的计算机学习的路途,本文用于记录Python百度搜索爬虫编写过程。
第一步 本程序所用的python库
1,requests 用于GET网页返回的信息,这个库比较重要。可以用来模拟浏览器的GET和POST,伪装浏览器,成功爬取内容。比起urllib和urllib2要有很大的简便性。
2,lxml中的etree可以通过xpath获取爬取到的内容的特定部分。配合chrome使用会更好(chrome中有自带的可以获取xpath的工具。)
第二步 设计爬虫伪装浏览器
1,以下是一个头的简单示例。
2,可以获取代理IP(我没有用)
第三步 观察百度搜索的url,获取最初的url(word为要搜索的关键词)
第四步 爬取内容并解析
html = requests.get(url=url,headers=headers)
path = etree.HTML(html.content)
下面是抓取部分代码
for i in range(1, flag):
sentence = ""
for j in path.xpath('//*[@id="%d"]/h3/a//text()'%((k-1)*10+i)):
sentence+=j
print sentence
list.append(sentence)
谢谢大家
【github传送门1 百度爬虫】https://github.com/gongpx20069/BaiduSpider
【github传送门2 Bing爬虫】https://github.com/gongpx20069/BingSpider
第一步 本程序所用的python库
1,requests 用于GET网页返回的信息,这个库比较重要。可以用来模拟浏览器的GET和POST,伪装浏览器,成功爬取内容。比起urllib和urllib2要有很大的简便性。
2,lxml中的etree可以通过xpath获取爬取到的内容的特定部分。配合chrome使用会更好(chrome中有自带的可以获取xpath的工具。)
第二步 设计爬虫伪装浏览器
1,以下是一个头的简单示例。
headers = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Encoding': 'gzip, deflate, compress', 'Accept-Language': 'en-us;q=0.5,en;q=0.3', 'Cache-Control': 'max-age=0', 'Connection': 'keep-alive', 'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/22.0' }
2,可以获取代理IP(我没有用)
第三步 观察百度搜索的url,获取最初的url(word为要搜索的关键词)
baiduurl = 'http://www.baidu.com' url = 'http://www.baidu.com.cn/s?wd=' + word + '&cl=3'
第四步 爬取内容并解析
html = requests.get(url=url,headers=headers)
path = etree.HTML(html.content)
下面是抓取部分代码
for i in range(1, flag):
sentence = ""
for j in path.xpath('//*[@id="%d"]/h3/a//text()'%((k-1)*10+i)):
sentence+=j
print sentence
list.append(sentence)
谢谢大家
【github传送门1 百度爬虫】https://github.com/gongpx20069/BaiduSpider
【github传送门2 Bing爬虫】https://github.com/gongpx20069/BingSpider
相关文章推荐
- 一个简单的使用代理访问百度页面内容的python脚本
- CDays-2 习题二 (编写类Class,并实现简单的栈)及相关内容解析。Python 基础教程 Class
- 如何让搜索引擎(百度)更好地收录网站内容
- 简单几步实现网络音乐播放器(Python爬虫版百度FM)
- 百度的科学计算器(简单) Python 库函数实现表达式求值
- Python3.6中的简单抓取百度网页源代码
- 一个简单的基于内容的文本文件搜索引擎
- python使用百度进行爬虫简单学习例子
- 突然发现百度的API越来越好用了,简单使用百度API精准定位IP地址。附Python代码
- Python MOOC简单获取网页内容并以html格式保存在本地
- Python简单抓取在线网页内容
- PHP获取搜索引擎关键字来源(百度、谷歌、雅虎、搜狗、搜搜、必应、有道)
- PHP获取搜索引擎关键字来源(百度、谷歌、雅虎、搜狗、搜搜、必应、有道)
- python解析百度网页源代码:取搜索引擎返回的前page_num*10个链接的url
- 用python写一个简单的中文搜索引擎
- 构建垂直搜索引擎 本课程带领大家实现一个简单的垂直搜索引擎网站,使用nodejs、python、elasticsearch实现的。
- [Python]简单抓取百度blog
- 【python】简单的网页内容获取 - 有道翻译英文
- 搜索引擎关键词抓取 以百度为例 python
- Pyhton实例,抓取百度词条关于Python的内容(二)