urllib2抓取HTML存入Excel
2016-09-17 16:17
183 查看
通过urllib2抓取HTML网页,然后过滤出包含特定字符的行,并写入Excel文件:
输出结果:
# -*- coding: utf-8 -*- import sys #import urllib import urllib2 from xlwt import Workbook def getdata(keywords, line): date = '' if keywords in line: # 本行包含keywords start = line.find('>',) end = line.find('</', start) data = line[start+1:end] return data return False def FetchDataByUrllib(checkUrl): book=Workbook(encoding='gbk') # add_sheet新增sheet,默认不能overwrite数据,必须显示指定可更改。 sheet=book.add_sheet('mySheet', cell_overwrite_ok=True) try: checkFile = urllib2.urlopen(checkUrl) except Exception, e: print e return type = sys.getfilesystemencoding() i = 1 for line in checkFile: # 根据网页编码格式来解码 line = line.decode("UTF-8").encode(type) #line = line.decode("GBK").encode(type) # 逐行全部写入excel文件。 #sheet.write(i,1,line) #i+=1 # 查找所需的特定数据,写入Excel文件。 targetStr = getdata('体育', line) # 包含'体育'的行 if targetStr != False: sheet.write(i,1,targetStr) i+=1 book.save('simple.xls') print 'finish!' print '开始...' myUrl = 'http://www.sina.com.cn' FetchDataByUrllib(myUrl)
输出结果:
相关文章推荐
- python抓取某汽车网数据解析html存入excel示例
- python抓取某汽车网数据解析html存入excel示例
- python抓取网页上的数字并存入excel
- python3 - 抓取全国天气数据并存入excel
- 用python抓取智联招聘信息并存入excel
- python 网络上抓取数据处理并存入到Excel'中
- ireport导出各种格式(pdf,excel,word,html,print)
- 用WebRequest +HtmlAgilityPack 从外网抓取数据到本地
- python 用urllib2抓取网页和发布(登录或发布文章)的基本操作
- jasperreport生成html,Excel,PDF表格,数据源使用List
- c# 抓取 js动态生成的HTML的工具:NHtmlUnit
- 在项目(新闻内容系统)中,运用百度编辑器内容存入数据库(包括html标签),怎么运用工具来转换成text(不带html标签)!
- shell——html抓取链接
- Get data from specified URI using WebRequest and WebResponse(读取网页数据并存入对应html文档)
- [JAVA]: Jacob 转换Word,Excel为HTML
- 服务器端直接将HTML下载成Excel
- 【网络爬虫】【java】微博爬虫(二):如何抓取HTML页面及HttpClient使用
- python抓取伯乐在线的全部文章,对标题分词后存入mongodb中
- 用ASPOSE.Cells将HTML表格存为Excel
- 基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL