Python -- 网络编程 -- 简单抓取网页
2014-05-04 13:33
507 查看
抓取网页: urllib.request.urlopen(url).read().decode('utf-8') --- (百度是utf-8,谷歌不是utf-8,也不是cp936,ascii也不行,iso-8859-1勉强)
PyQt4.QtGui的QTextEdit控件自动解析HTML文档,为显示纯HTML文件,应使用方法QTextEdit.setPlainText()
例:抓取网页的标题、图片和链接
![](http://images.cnitblog.com/i/629678/201405/041406551274567.jpg)
![](http://images.cnitblog.com/i/629678/201405/041407068779089.jpg)
PyQt4.QtGui的QTextEdit控件自动解析HTML文档,为显示纯HTML文件,应使用方法QTextEdit.setPlainText()
例:抓取网页的标题、图片和链接
import sys, re import urllib.request from PyQt4 import QtGui class MainWindow(QtGui.QWidget): def __init__(self): super(MainWindow, self).__init__() self.setWindowTitle('Crawl') self.resize(485, 300) self.txt = QtGui.QTextEdit() # self.txt.setF self.txt.setReadOnly(True) grid = QtGui.QGridLayout() grid.addWidget(self.txt) self.setLayout(grid) url = 'http://www.baidu.com/s?wd=python' page = urllib.request.urlopen(url).read().decode('utf-8') fp = open('e:/temp.txt', 'wt', encoding='utf-8') fp.write(page) fp.close s = '标题:\n' page_title = re.compile('<title>(.+?)</title>') s += page_title.findall(page)[0]+'\n' s += '图片:\n' page_images = re.compile('<img src="(.+?)"') for data in page_images.findall(page): s += data+'\n' s += '链接:\n' page_link = re.compile('href="(.+?)"') for data in page_link.findall(page): s += data+'\n' self.txt.setPlainText(s) app = QtGui.QApplication(sys.argv) mainwindow = MainWindow() mainwindow.show() app.exec_()
![](http://images.cnitblog.com/i/629678/201405/041406551274567.jpg)
![](http://images.cnitblog.com/i/629678/201405/041407068779089.jpg)
![](http://images.cnitblog.com/i/629678/201405/041407206739971.jpg)
相关文章推荐
- Python -- 网络编程 -- 抓取网页图片 -- 豆瓣妹子
- Python3抓取页面信息,网络编程,简单发送QQ邮件
- Python -- 网络编程 -- 抓取网页图片 -- 图虫网
- Python简单网络编程示例【客户端与服务端】
- Python3 爬虫(一)-- 简单网页抓取
- 使用Python编写简单网络爬虫抓取视频下载资源
- Python学习笔记(二)网络编程的简单示例
- python 网络编程——urllib,urllib2简单运用
- C# 网络编程之网页简单下载实现
- Python3简单爬虫抓取网页图片
- Python 网络爬虫 004 (编程) 如何编写一个网络爬虫,来下载(或叫:爬取)一个站点里的所有网页
- Python3学习(34)--简单网页内容抓取(爬虫入门一)
- C# 网络编程之网页简单下载实现
- Python3简单爬虫抓取网页图片
- 使用Python编写简单网络爬虫抓取视频下载资源
- Python爬虫学习笔记一:简单网页图片抓取
- Python 网络爬虫 004 (编程) 如何编写一个网络爬虫,来下载(或叫:爬取)一个站点里的所有网页
- Python3.6中的简单抓取百度网页源代码
- [Python]网络爬虫1:抓取网页的含义和URL基本构成 笔记
- Python之安装pip&beautiful4&使用beautifulsoup4抓取简单网页