查看网页是否压缩gzip+编码方式
2017-06-12 14:20
369 查看
一、查看网页是否压缩gzip
req = urllib.request.Request(url) html = urllib.request.urlopen(req) print(html.info().get('Content-Encoding')) #print(html.info())能查看更多信息
二、查看网页编码方式
在学习Python爬取网页的时候,我们经常会遇到编码方式的困扰,为了解决这个编码方式的问题,首先是要获取网页的编码方式,下面就获取网页的编码方式重点说一下三种方法。一, 使用chardet模块(python3自己实现,亲测成功)
import chardet import urllib.request data = urllib.request.urlopen('http://www.baidu.com').read() chardit = chardet.detect(data) print (chardit['encoding'])
在工作中进行以下实现:
import urllib.request import chardet #用于获取网页编码方式 urls = open("f:/1.txt") #从1.txt取urls数据 for url in urls: request = urllib.request.Request(url) response = urllib.request.urlopen(request) data = response.read() chardit = chardet.detect(data) #chardit为获取网页编码相关信息的字典 rule = chardit["encoding"] if rule: print(rule) else: print("error!没有获得网页编码格式信息")
二, 使用urllib模块的getparam方法
import urllib fopen1 = urllib.urlopen('http://www.baidu.com').info() print fopen1.getparam('charset')# baidu
三, 利用BeautifulSoup模块方法
>from bs4 import BeautifulSoup >import urllib2 >content=urllib2.urlopen(url)#这里url是你需要获取的网页 >soup=BeautifulSoup(content) >print soup.original_encoding #这里的输出就是网页的编码方式1
2
3
4
5
1
2
3
4
5
这里爬取网页内容出现的乱码问题,可以参考博客文章。
这里获取网页html内容,可以参考博客文章。
转载自:http://blog.csdn.net/winterto1990/article/details/47658887
相关文章推荐
- 使用php判断网页是否gzip压缩
- 查看网页编码方式的通用方法
- php判断网页是否开启gzip压缩
- php判断网页是否gzip压缩
- 爬取网页时自动获取网页编码信息,并对特殊的乱码页面(压缩过的网页内容)用gzip进行解码。
- 网页内容抓取之确定网页是否gzip压缩
- php判断网页是否gzip压缩
- 使用php判断网页是否gzip压缩
- HttpWebRequest 下载网页时 ,处理页面编码和服务器响应流(Gzip压缩)
- 用javascript来判断浏览器是否禁止了弹出窗口,并在网页中以友好的方式来提示网站浏览者
- 您查看的网页正在试图关闭窗口。是否关闭此窗口”的屏蔽方法(JavaScript)
- Tomcat下通过配置提高网页访问速度[gzip压缩技术]
- APACHE中用mod_gzip或mod_deflate开启网页传输压缩
- 启用IIS Gzip 页面压缩技术 加速网页的浏览速度
- 用gzip方式进行压缩数据,解压缩数据
- 查看网页更新时间和判断网页是否伪静态的方法(转)
- Windows 2003中如何启动IIS6的GZIP压缩网页传输
- windows下apache开启gzip压缩 加快网页下载速度
- IIS6 启动 gzip 压缩 推荐 附测试是否生效地址