您的位置:首页 > 编程语言 > PHP开发

PHP实现 Manacher 最大回文子串算法

2016-04-05 11:51 190 查看
题目:给一个字符串,找出它的最长的回文子序列的长度。

例如,如果给定的序列是“BBABCBCAB”,则输出应该是7,“BABCBAB”是在它的最长回文子序列。

输入:
aaaa
1212asdfdsa1144121


输出:
4
7


这里我们还是将其封装成函数调用

何谓回文序列

回文序列就是正向和反向完全一样的序列,比如
asdfdsa
aaaa


接下来我们由浅及深,一步一步来说一下
Manacher
算法,这里我们只说 PHP 的实现

判断回文序列

通过 PHP 很容易实现,只需要判断正向反向是否相同就行了

function huiwen($str)
{
$str2 = implode(array_reverse(str_split($str)), "");

if ($str == $str2) {
echo "$str, yes";
} else {
echo "$str, no";
}
}


接下来我们就来讲解最大回文子串如何去求

第一版代码

求回文子串,毫无疑问需要每个字符遍历一遍,分别求出来各个字符的回文长度,然后选出最长的那一个

代码如下:

function palindrome($str)
{
$n = strlen($str);
$pos = 0;
$max = 0;

for ($i = 0; $i < $n; $i++) {
for ($j = 0; ($i - $j >= 0) && ($i + $j < $n); $j++) {
if ($str[$i - $j] != $str[$i + $j]) {
break;
}
if ($j > $max) {
$max = $j;
$pos = $i;
}
}
}
var_dump(substr($str, $pos - $max, $max * 2 + 1));
}


可以看到,这个代码是有bug的,因为回文子串可能是奇数长度,也可能是偶数长度,因为我们是以一个字符为中心来求的,所以用这种方法只能求出奇数长度的回文子串,接下来我们来改进一下

第二版改进

因为我们只能求出奇数长度的回文子串,因此我们需要把字符串改进一下

首先通过在每个字符的两边都插入一个特殊的符号,将所有可能的奇数或偶数长度的回文子串都转换成了奇数长度。比如 abba 变成 #a#b#b#a#, aba变成 #a#b#a#,这样我们再来看一下代码:

function palindrome($str)
{
$pos = 0;
$max = 0;

$newStr = "#" . implode(str_split($str), "#") . "#";
$n = strlen($newStr);

for ($i = 0; $i < $n; $i++) {
for ($j = 0; ($i - $j >= 0) && ($i + $j < $n); $j++) {
if ($newStr[$i - $j] != $newStr[$i + $j]) {
break;
}
if ($j > $max) {
$max = $j;
$pos = $i;
}
}
}

$r = substr($newStr, $pos - $max, $max * 2);
$res = str_replace("#", "", $r);
var_dump($res);
}


这个样子我们就写好了基本的回文子串算法了,但是在这个算法中,我们用了两层
for
循环,并且需要判断当前字符的位置是否越界,效率较低,接下来我们来看
Manacher
算法

Manacher 算法实现

首先,为了进一步减少编码的复杂度,可以在字符串的开始和结尾加入另一个特殊字符,这样就不用特殊处理越界问题,这里我们在开头和结尾分别加入
@
\0
,如
abba
变成
@#a#b#b#a#\0


接下来,我们引入一个辅助序列
$p[]
来记录各个位置的回文长度(注意:我们这里记录的回文长度是单向的长度,比如
12321
我们记录的回文长度为 3,实际回文长度是
$p[$i] * 2 - 1


比如字符串
$s[]
与辅助序列
$p[]
的对应关系如下:

S # 1 # 2 # 2 # 1 #

P 1 2 1 2 5 2 1 2 1

最后,核心代码在于这一句:

$p[$i] = $mx > $i ? min($p[$j], $mx - $i) : 1;


通过这步操作我们可以避免很多不必要的匹配,我们结合下面的代码来理解这句操作

$mx
是最大回文序列最右侧边界的坐标,
$i
是当前要计算的位置,
$j
$i
相对于最大回文序列中间坐标
$pos
的对称点

由于回文序列的性质,回文序列是对称的,也就是说

如果:

$mx > $i


那么

$p[$i] >= $mx > $i ? min($p[$j], $mx - $i) : 1;


可以这么理解:

如果
$mx > $i
,这时 当前位置当前最大回文序列 的右半部分里面,根据回文序列的对称性,可以得出,当前位置
$i
的回文长度一定大于等于与之对称
$j
的回文长度,所以说直接从
$j
的回文长度开始计算

但是如果
$mx > $i
,这时 当前位置当前最大回文序列 之外,无法判断
$mx
以后字符的对称性,因此从 1 开始

function palindrome($str)
{
// 最大回文序列中间坐标
$pos = 0;
// 最大回文长度
$max = 0;
// 回文序列最右边界坐标
$mx = 0;

$p = array("0" => 1, "1" => 1);

$newStr = "@#" . implode(str_split($str), "#") . "#\0";
$n = strlen($newStr);

for ($i = 2; $newStr[$i] != "\0"; $i++) {
// $i 相对于最大回文序列中间坐标 $pos 的对称点
$j = $pos - $i > 0 ? $pos - $i : 1;
$p[$i] = $mx > $i ? min($p[$j], $mx - $i) : 1;
while ($newStr[$i - $p[$i]] == $newStr[$i + $p[$i]]) {
$p[$i]++;
}

if ($p[$i] > $max) {
$max = $p[$i];
$pos = $i;
$mx = $i + $max;
}
}

$r = substr($newStr, $pos - $max + 1, $max * 2 - 1);
$res = str_replace(array("#", "@", "\0"), "", $r);
var_dump($res);
}


Manacher 算法的时间复杂度为O(n),优势在于避免了奇偶数讨论的问题,简化了边界判断,还记录了当前字符串的“回文状态”,利用之前的回文状态来求当前回文状态 ,体现了动态规划的思想
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: