您的位置:首页 > 其它

汉字转换拼音字头原理实践

2013-04-22 21:26 246 查看
今天照常登陆php新闻网站,看到首页的一则文字类的新闻,汉字转换拼音字头原理,闲来无事,用php实践下,把它写出来
/**
* 汉字转换为拼音字头
* @author jkj
*/
class HzToPyHeader
{
//传说中的160,16进制为a0,so..
static $BaseCode = 0xa0;
// 国标一级汉字不同读音的起始区位码
private $secPosValueList = array(
1601, 1637, 1833, 2078, 2274, 2302, 2433, 2594, 2787, 3106, 3212, 3472,
3635, 3722, 3730, 3858, 4027, 4086, 4390, 4558, 4684, 4925, 5249, 9999);
// 国标一级汉字不同读音的起始区位码对应读音
private $firstLetter = array(
'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'j', 'k', 'l', 'm', 'n', 'o', 'p',
'q', 'r', 's', 't', 'w', 'x', 'y', 'z');
// 区位码=字节的ASCII码-160(汉字基数),而一个汉字的区位码为字节相加值,例蒋(29,15) 2915
// ps : 以下都以gb2312为例,一般一个汉字占2个字节,
// 第一个字节的ASCII码-160(汉字基数)按拼音排序都在16-55之间
function __construct(){

}
/**
* Hanzi section-position code
* 得到汉字的区位码
* @param string $hanzi
* @return array
*/
final function secposcode($hanzi){
$spc = array();
for($i=0; $i<strlen($hanzi); $i++)
{
$_P = ord(substr($hanzi, $i, 1))-self::$BaseCode;
$_G = ord(substr($hanzi, ++$i, 1))-self::$BaseCode;
if($_G<10) $_G = "0".strval($_G);
$spc[] = strval($_P).strval($_G);
}
return $spc;
}

final function getFirst($hz){
$rs = array();
foreach ($this->secposcode($hz) as $k=>$v){
foreach ($this->secPosValueList as $in_k=>$in_v){
if($v>=$in_v) $rs[$k]=$this->firstLetter[$in_k];
}
}
return implode("",$rs);
}
}

$htph = new HzToPyHeader();
print_r($htph->secposcode("蒋某人"));
echo $htph->getFirst("蒋某人");



                                            
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: