Python 开发简单爬虫 - 实战演练
2017-02-14 14:32
435 查看
爬取百度百科1000个页面的数据
1. 准备工作:
确定目标 => 分析目标(URL格式, 数据格式, 网页编码) => 编写代码 => 执行爬虫
1.1 链接分析:
进入百度百科“Python”词条页面:http://baike.baidu.com/view/21087.htm => 在链接位置右键后,点击审查元素,
href="/view/2561555.htm" 是一个不完整的url, 在代码中需要拼接成完整的 baike.baidu.com/view/2561555.htm 才能进行后续的访问。
View Code
3. 课程总结
1. 准备工作:
确定目标 => 分析目标(URL格式, 数据格式, 网页编码) => 编写代码 => 执行爬虫
1.1 链接分析:
进入百度百科“Python”词条页面:http://baike.baidu.com/view/21087.htm => 在链接位置右键后,点击审查元素,
href="/view/2561555.htm" 是一个不完整的url, 在代码中需要拼接成完整的 baike.baidu.com/view/2561555.htm 才能进行后续的访问。
# -*- coding: utf-8 -*- """ Created on Tue Feb 14 13:35:56 2017 @author: Wayne """ class HtmlOutputer(object): def __init__(self): # 建立列表存放数据 self.datas = [] def collect_data(self, data): # 收集数据 if data is None: return self.datas.append(data) def output_html(self): fout = open('output.html', 'w') fout.write("<html>") fout.write("<head><meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\"></head>") fout.write("<body>") fout.write("<table>") for data in self.datas: fout.write("<tr>") fout.write("<td>%s</td>" % data['url']) fout.write("<td>%s</td>" % data['title'].encode('UTF-8')) fout.write("<td>%s</td>" % data['summary'].encode('UTF-8')) fout.write("</tr>") fout.write("</table>") fout.write("</body>") fout.write("</html>") fout.close()
View Code
3. 课程总结
相关文章推荐
- Python开发简单爬虫(笔记)
- Python开发简单爬虫 - 慕课网
- Python 开发简单爬虫 - 基础框架
- Python开发简单爬虫
- Python开发简单爬虫(一)
- Python开发简单爬虫
- Python开发简单爬虫之爬虫介绍(一)
- Python开发简单爬虫
- python开发简单爬虫——笔记(更新中)
- python 开发简单爬虫
- Python开发简单爬虫学习笔记(2)
- ”Python开发简单爬虫“慕课网课程学习笔记1
- python开发简单爬虫:实战篇
- python-慕课网-Python开发简单爬虫-蚂蚁-读书笔记
- Python开发简单爬虫(一)
- Python 开发简单爬虫 学习笔记1
- Python开发简单爬虫--学习笔记
- 【Python开发】【神经网络与深度学习】如何利用Python写简单网络爬虫
- Python开发简单爬虫(二)---爬取百度百科页面数据
- Python开发简单爬虫