您的位置:首页 > 其它

百度搜索结果页面的参数 输入编码(ie)

2013-01-06 17:41 716 查看
阅读前的说明

为了避免被认为帮百度做外链而被删,所有链接做了转义处理。

百度网页搜索地址常见的开头是 http:\/\/www\.baidu\.com\/

另外有以下2种地址形式也被百度认可

http:\/\/www\.baidu\.com\/s

http:\/\/www\.baidu\.com\/index\.php

(百度也没有都做301转向,那些SEO专家号称301跳转可以集中权重的方法,怎么百度会没考虑到)

echo"<table>";

$baidu=$_POST['baidu'];

if(preg_match("/http:\/\/www\.baidu\.com\/|http:\/\/www\.baidu\.com\/s|http:\/\/www\.baidu\.com\/index\.php/i",$baidu))

echo"<thead><tr><th>百度网页搜索</th><th colspan=\"2\"></th></tr></thead>";

接下去是本文所要重点说明的对象——百度搜索结果网址参数(Baidu Search Engine Result Page Uniform/Universal Resource Locator Parameters)

百度的域名后面第1个字符是 s? 或者 baidu? 含义是 搜索(search) 或者 百度搜索

问号表示后面跟的是参数

参数之间用 & 连字符连接,其中可以出现0-多个无效参数,并不影响搜索结果页面(SERP)

参数的形式通常为 参数名 = 参数值

参数有可见和隐藏参数之分

用的最多的隐藏参数或者默认参数有 ie=GB2312

百度搜索结果网址参数 输入编码(ie)

名称 ie

含义 输入编码(Input Encoding)

常见的值有以下3种

GB 2312 (中国国家标准简体中文字符集) 信息交换用汉字编码字符集·基本集

GBK (Chinese Internal Code Specification)汉字内码扩展规范

UTF-8 (8-bit Unicode Transformation Format) 一种针对Unicode的可变长度字符编码(定长码)

百度网页搜索默认使用的 GB2312 是较为传统的编码,“罗马不是一天建成的”,百度成立至今也有13个年头,GB2312 当年还算流行,再者 GB2312 存储字节要比 UTF-8 少许多,对于百度依赖于超大数据的网站来说,可以省不少钱。

但这对解码来说却多了一道麻烦,需要先判断是何种编码,否则容易出现乱码。

$baidudecode=$_POST['baidudecode'];

$baidudecodegb=$_POST['baidudecodegb'];

$baidudecode=urldecode($baidu);

$baidudecodegb=iconv("GB2312","UTF-8//IGNORE",urldecode($baidu));

于是百度推出了参数 ie=utf-8 来解决编码不统一的问题,后来的百度无线直接默认输入编码为 UTF-8
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: