您的位置:首页 > 理论基础 > 计算机网络

获取http的gzip内容并解压相关问题

2016-10-05 16:55 337 查看
转载自: http://blog.csdn.net/Squallxye/article/details/5388955
08年在csdn上面写了一个帖子关于解压http的gzip内容的,一直以来有不少的程序员前仆后继,持续的遇到同样的问题,正如我08年遇到的时候看的都是03 04年的帖子一样,现在把论坛上面的资料整理一下放到这里,希望能这个问题不会再困扰其他的程序员。
------------------------------
寻找gzip 
获取一个网页数据返回的编码类型是gzip,我该怎么解压缩 ?

HTTP头获取? 

如何用vb获取网络上的xml文件,并解析内容 ?

关于GZIP的解码 ?

怎样解gzip的压缩 ?

请问Wininet是否可以进行Gzip的http传输,尤其是post的时候!如果可以如何实现? 

关于GZIP格式解压缩HTTP数据包的问题,我使用ZLIB为什么必须先保存文件,内存解压缩出错 ?

无法获取$_SERVER["HTTP_REFERER"] 

关于GZIP的问题,高分求解!! 
..... 

等都是关于gzip解压的 

问题: 

提取http的gzip内容,并解压。 

关键点: 

1 提取http数据包的内容,主要是gzip格式的 

2 数据包的重组 

3 在内存中解压gzip数据 

这两个周过来,都是在网上过来的,得到网友的帮助不少,很是感激,为了不让这个问题继续困扰后来的un_gziper,特写此文。 

1 数据包内存的提取: 

关键的地方是找到gzip内存的开始位置以及如何确定gzip内容的大小 

开始位置:“Content-Encoding: gzip/r/n/r/n” 

gzip大小:“Content-Length:”后面的就是了 

2 数据包的重组,一般网页的内容很少是一个数据包可以装得下的,所以都得进行gzip之后再用多个数据包进行传输 

关键的地方是: 

get请求数据包的ack和seq与http返回数据包的ack,seq有密切的联系: 

举例说明: 

get请求:ack=0,seq=0 

http1:seq=0,ack=584 

http2: seq=1420,ack=584 

... 

简单的分析说明可以看出,我们的算法设计: 

首先得到get请求的ack,返回的数据包的seq等于这个值,同时记下这个数据包的ack,后面进行分包发送的http的数据包的ack都是这个值,这个是关键点之一,同时综合 

Content-Length就可以得到gzip的全部内容。 

至此,原始数据提取完毕,该是如何解压的问题了 

3解压gzip 

我做了上面的1,2步以后将内容保存到文件里面,用gzip命令可以打开,验证了数据的完整性。 

而后我采用了zlib提供的uncompress函数,和大多数的网友一样,都是犯了一个致命的错误,没有仔细的阅读zlib的文档!导致一次次无谓的识别! 

事实上zlib格式和gzib格式是有差别的,而uncompress是用来解压zlib格式文件的,这就是为什么会出现用compress函数压缩的数据,在内存中可以直接用uncompress函数进行解压的,而就不能解压gzip数据的问题! 

后来测试了zlib包里面的example例子,算是对zlib有了一点点的了解,应该用inflate类函数进行解压! 

当然这样遇到了问题,格式不对! 

后来在网上看到的帖子:gzip格式用inflate函数还不行,必需要用inflateInit2(&strm,  47); !!!!!!!!!!!!!!!!!! 

问题解决! 

这里借用那位网友的源代码,同时对他表示感谢! 

int  inflate_read(char  *source,int  len,char  **dest,int  gzip) 



int  ret; 

unsigned  have; 

z_stream  strm; 

unsigned  char  out[CHUNK]; 

int  totalsize  =  0; 

/*  allocate  inflate  state  */ 

strm.zalloc  =  Z_NULL; 

strm.zfree  =  Z_NULL; 

strm.opaque  =  Z_NULL; 

strm.avail_in  =  0; 

strm.next_in  =  Z_NULL; 

if(gzip) 

ret  =  inflateInit2(&strm,  47); 

else 

ret  =  inflateInit(&strm); 

if  (ret  !=  Z_OK) 

return  ret; 

strm.avail_in  =  len; 

strm.next_in  =  source; 

/*  run  inflate()  on  input  until  output  buffer  not  full  */ 

do  { 

strm.avail_out  =  CHUNK; 

strm.next_out  =  out; 

ret  =  inflate(&strm,  Z_NO_FLUSH); 

assert(ret  !=  Z_STREAM_ERROR);    /*  state  not  clobbered  */ 

switch  (ret)  { 

case  Z_NEED_DICT: 

ret  =  Z_DATA_ERROR;          /*  and  fall  through  */ 

case  Z_DATA_ERROR: 

case  Z_MEM_ERROR: 

inflateEnd(&strm); 

return  ret; 



have  =  CHUNK  -  strm.avail_out; 

totalsize  +=  have; 

*dest  =  realloc(*dest,totalsize); 

memcpy(*dest  +  totalsize  -  have,out,have); 

}  while  (strm.avail_out  ==  0); 

/*  clean  up  and  return  */ 

(void)inflateEnd(&strm); 

return  ret  ==  Z_STREAM_END  ?  Z_OK  :  Z_DATA_ERROR; 

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: