获取http的gzip内容并解压
2010-05-14 14:30
387 查看
08年在csdn上面写了一个帖子关于解压http的gzip内容的,一直以来有不少的程序员前仆后继,持续的遇到同样的问题,正如我08年遇到的时候看的都是03 04年的帖子一样,现在把论坛上面的资料整理一下放到这里,希望能这个问题不会再困扰其他的程序员。
------------------------------
寻找gzip
获取一个网页数据返回的编码类型是gzip,我该怎么解压缩 ?
HTTP头获取?
如何用vb获取网络上的xml文件,并解析内容 ?
关于GZIP的解码 ?
怎样解gzip的压缩 ?
请问Wininet是否可以进行Gzip的http传输,尤其是post的时候!如果可以如何实现?
关于GZIP格式解压缩HTTP数据包的问题,我使用ZLIB为什么必须先保存文件,内存解压缩出错 ?
无法获取$_SERVER["HTTP_REFERER"]
关于GZIP的问题,高分求解!!
.....
等都是关于gzip解压的
问题:
提取http的gzip内容,并解压。
关键点:
1 提取http数据包的内容,主要是gzip格式的
2 数据包的重组
3 在内存中解压gzip数据
这两个周过来,都是在网上过来的,得到网友的帮助不少,很是感激,为了不让这个问题继续困扰后来的un_gziper,特写此文。
1 数据包内存的提取:
关键的地方是找到gzip内存的开始位置以及如何确定gzip内容的大小
开始位置:“Content-Encoding: gzip/r/n/r/n”
gzip大小:“Content-Length:”后面的就是了
2 数据包的重组,一般网页的内容很少是一个数据包可以装得下的,所以都得进行gzip之后再用多个数据包进行传输
关键的地方是:
get请求数据包的ack和seq与http返回数据包的ack,seq有密切的联系:
举例说明:
get请求:ack=0,seq=0
http1:seq=0,ack=584
http2: seq=1420,ack=584
...
简单的分析说明可以看出,我们的算法设计:
首先得到get请求的ack,返回的数据包的seq等于这个值,同时记下这个数据包的ack,后面进行分包发送的http的数据包的ack都是这个值,这个是关键点之一,同时综合
Content-Length就可以得到gzip的全部内容。
至此,原始数据提取完毕,该是如何解压的问题了
3解压gzip
我做了上面的1,2步以后将内容保存到文件里面,用gzip命令可以打开,验证了数据的完整性。
而后我采用了zlib提供的uncompress函数,和大多数的网友一样,都是犯了一个致命的错误,没有仔细的阅读zlib的文档!导致一次次无谓的识别!
事实上zlib格式和gzib格式是有差别的,而uncompress是用来解压zlib格式文件的,这就是为什么会出现用compress函数压缩的数据,在内存中可以直接用uncompress函数进行解压的,而就不能解压gzip数据的问题!
后来测试了zlib包里面的example例子,算是对zlib有了一点点的了解,应该用inflate类函数进行解压!
当然这样遇到了问题,格式不对!
后来在网上看到的帖子:gzip格式用inflate函数还不行,必需要用inflateInit2(&strm, 47); !!!!!!!!!!!!!!!!!!
问题解决!
这里借用那位网友的源代码,同时对他表示感谢!
补充:zlib版本需要在1.1.4以上(不包括)
转自:http://blog.csdn.net/Squallxye/archive/2010/03/17/5388955.aspx
------------------------------
寻找gzip
获取一个网页数据返回的编码类型是gzip,我该怎么解压缩 ?
HTTP头获取?
如何用vb获取网络上的xml文件,并解析内容 ?
关于GZIP的解码 ?
怎样解gzip的压缩 ?
请问Wininet是否可以进行Gzip的http传输,尤其是post的时候!如果可以如何实现?
关于GZIP格式解压缩HTTP数据包的问题,我使用ZLIB为什么必须先保存文件,内存解压缩出错 ?
无法获取$_SERVER["HTTP_REFERER"]
关于GZIP的问题,高分求解!!
.....
等都是关于gzip解压的
问题:
提取http的gzip内容,并解压。
关键点:
1 提取http数据包的内容,主要是gzip格式的
2 数据包的重组
3 在内存中解压gzip数据
这两个周过来,都是在网上过来的,得到网友的帮助不少,很是感激,为了不让这个问题继续困扰后来的un_gziper,特写此文。
1 数据包内存的提取:
关键的地方是找到gzip内存的开始位置以及如何确定gzip内容的大小
开始位置:“Content-Encoding: gzip/r/n/r/n”
gzip大小:“Content-Length:”后面的就是了
2 数据包的重组,一般网页的内容很少是一个数据包可以装得下的,所以都得进行gzip之后再用多个数据包进行传输
关键的地方是:
get请求数据包的ack和seq与http返回数据包的ack,seq有密切的联系:
举例说明:
get请求:ack=0,seq=0
http1:seq=0,ack=584
http2: seq=1420,ack=584
...
简单的分析说明可以看出,我们的算法设计:
首先得到get请求的ack,返回的数据包的seq等于这个值,同时记下这个数据包的ack,后面进行分包发送的http的数据包的ack都是这个值,这个是关键点之一,同时综合
Content-Length就可以得到gzip的全部内容。
至此,原始数据提取完毕,该是如何解压的问题了
3解压gzip
我做了上面的1,2步以后将内容保存到文件里面,用gzip命令可以打开,验证了数据的完整性。
而后我采用了zlib提供的uncompress函数,和大多数的网友一样,都是犯了一个致命的错误,没有仔细的阅读zlib的文档!导致一次次无谓的识别!
事实上zlib格式和gzib格式是有差别的,而uncompress是用来解压zlib格式文件的,这就是为什么会出现用compress函数压缩的数据,在内存中可以直接用uncompress函数进行解压的,而就不能解压gzip数据的问题!
后来测试了zlib包里面的example例子,算是对zlib有了一点点的了解,应该用inflate类函数进行解压!
当然这样遇到了问题,格式不对!
后来在网上看到的帖子:gzip格式用inflate函数还不行,必需要用inflateInit2(&strm, 47); !!!!!!!!!!!!!!!!!!
问题解决!
这里借用那位网友的源代码,同时对他表示感谢!
补充:zlib版本需要在1.1.4以上(不包括)
int inflate_read(char *source,int len,char **dest,int gzip) { int ret; unsigned have; z_stream strm; unsigned char out[CHUNK]; int totalsize = 0; /* allocate inflate state */ strm.zalloc = Z_NULL; strm.zfree = Z_NULL; strm.opaque = Z_NULL; strm.avail_in = 0; strm.next_in = Z_NULL; if (gzip) ret = inflateInit2(&strm, 47); else ret = inflateInit(&strm); if (ret != Z_OK) return ret; strm.avail_in = len; strm.next_in = source; /* run inflate() on input until output buffer not full */ do { strm.avail_out = CHUNK; strm.next_out = out; ret = inflate(&strm, Z_NO_FLUSH); assert(ret != Z_STREAM_ERROR); /* state not clobbered */ switch (ret) { case Z_NEED_DICT: ret = Z_DATA_ERROR; /* and fall through */ case Z_DATA_ERROR: case Z_MEM_ERROR: inflateEnd(&strm); return ret; } have = CHUNK - strm.avail_out; totalsize += have; *dest = realloc(*dest,totalsize); memcpy(*dest + totalsize - have,out,have); } while (strm.avail_out == 0); /* clean up and return */ (void)inflateEnd(&strm); return ret == Z_STREAM_END ? Z_OK : Z_DATA_ERROR; }
转自:http://blog.csdn.net/Squallxye/archive/2010/03/17/5388955.aspx
相关文章推荐
- 获取http的gzip内容并解压相关问题
- 关于获取http的gzip内容并解压
- 获取http的gzip内容并解压相关问题(续)
- 获取http的gzip内容并解压相关问题
- 利用HttpWebRequest获取网页内容,由于Gzip压缩导致乱码的情况
- http client对post内容gzip压缩和server端解压接收
- VBS获取GZIP压缩的HTTP内容的实现代码
- 【HTTP】WireShark中获取Content-Encoding: gzip时的响应内容
- HttpClient的get方法获取网页内容
- 利用HttpClient获取网页内容
- 方便的e4x ,HTTPService获取XML格式的内容后直接提取想要的内容
- 获取http内容的php函数
- Js XMLHTTPRequest 实现GET请求提交和返回内容获取
- 解压HTTP gzip的
- Unity3D 网络通信_HTTP协议:获取网络图片、内容
- JAVA HttpURLConnection 获取网页内容
- Delphi中获取IE网页后,对GZIP方式的网页解压(gzip,deflate)
- httpClient对post内容gzip压缩和server端解压接收
- http数据流 gzip解压方法分析
- VC使用Http Get方法获取页面内容