您的位置：首页 > 编程语言 > Python开发

Python 开发简单爬虫 - 实战演练

2017-02-14 14:32 435 查看

爬取百度百科1000个页面的数据

1. 准备工作：

　　确定目标 => 分析目标（URL格式, 数据格式, 网页编码） => 编写代码 => 执行爬虫

　　1.1 链接分析：

　　　　进入百度百科“Python”词条页面：http://baike.baidu.com/view/21087.htm => 在链接位置右键后，点击审查元素,

　　　　href="/view/2561555.htm" 是一个不完整的url, 在代码中需要拼接成完整的 baike.baidu.com/view/2561555.htm 才能进行后续的访问。

　　　　

# -*- coding: utf-8 -*-
"""
Created on Tue Feb 14 13:35:56 2017

@author: Wayne
"""

class HtmlOutputer(object):

def __init__(self):  # 建立列表存放数据
self.datas = []

def collect_data(self, data):  # 收集数据
if data is None:
return
self.datas.append(data)

def output_html(self):
fout = open('output.html', 'w')

fout.write("<html>")
fout.write("<head><meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\"></head>")
fout.write("<body>")
fout.write("<table>")

for data in self.datas:
fout.write("<tr>")
fout.write("<td>%s</td>" % data['url'])
fout.write("<td>%s</td>" % data['title'].encode('UTF-8'))
fout.write("<td>%s</td>" % data['summary'].encode('UTF-8'))
fout.write("</tr>")

fout.write("</table>")
fout.write("</body>")
fout.write("</html>")

fout.close()

View Code
3. 课程总结

　　

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航