除去字串中的重复词,生成索引字符串,字符串参数为已经分词处理的串
2013-09-05 19:25
411 查看
/除去字串中的重复词,生成索引字符串,字符串参数为已经分词处理的串
//--------------------------------------------------
function getindextext($okstr,$ilen=-1)
{
if($okstr=="") return "";
$ws = explode(" ",$okstr);
$okstr = "";
$wks = "";
foreach($ws as $w)
{
$w = trim($w);
//排除小于2的字符
if(strlen($w)<2) continue;
//排除数字或日期
if(!ereg("[^0-9:-]",$w)) continue;
if(strlen($w)==2&&ord($w[0])>0x80) continue;
if(isset($wks[$w])) $wks[$w]++;
else $wks[$w] = 1;
}
if(is_array($wks))
{
arsort($wks);
if($ilen==-1)
{ foreach($wks as $w=>$v) $okstr .= $w." "; }
else
{
foreach($wks as $w=>$v){
if((strlen($okstr)+strlen($w)+1)<$ilen) $okstr .= $w." ";
else break;
}
}
}
return trim($okstr);
}?>
//--------------------------------------------------
function getindextext($okstr,$ilen=-1)
{
if($okstr=="") return "";
$ws = explode(" ",$okstr);
$okstr = "";
$wks = "";
foreach($ws as $w)
{
$w = trim($w);
//排除小于2的字符
if(strlen($w)<2) continue;
//排除数字或日期
if(!ereg("[^0-9:-]",$w)) continue;
if(strlen($w)==2&&ord($w[0])>0x80) continue;
if(isset($wks[$w])) $wks[$w]++;
else $wks[$w] = 1;
}
if(is_array($wks))
{
arsort($wks);
if($ilen==-1)
{ foreach($wks as $w=>$v) $okstr .= $w." "; }
else
{
foreach($wks as $w=>$v){
if((strlen($okstr)+strlen($w)+1)<$ilen) $okstr .= $w." ";
else break;
}
}
}
return trim($okstr);
}?>
相关文章推荐
- 除去字串中的重复词,生成索引字符串
- C#练习——去掉字符串两端的空格、统计字符出现的次数及出现的索引位置、随机生成10个1-100之间的不重复的偶数
- 字符串相关处理kmp,前缀数,后缀树,后缀数组,最长回文串,最长重复字串,最长非重复字串
- 字符串相关处理kmp,前缀数,后缀树,后缀数组,最长回文串,最长重复字串,最长非重复字串
- 字符串相关处理kmp,前缀数,后缀树,后缀数组,最长回文串,最长重复字串,最长非重复字串
- 字符串相关处理kmp,前缀数,后缀树,后缀数组,最长回文串,最长重复字串,最长非重复字串
- 服务器无法处理请求。 ---> 索引和长度必须引用该字符串内的位置。 参数名: length
- @requestBody:Spring MVC对Json字符串参数的处理(坑)
- 用后缀数组 求一个字符串的最长重复字串
- mongodb处理中文索引和查找字符串
- c# 生成随机N位数字串(每位可以重复)
- C# 生成不重复随机字符串 (1秒内生成1000000个)
- 生成十六位字符串(不重复)
- Linux下安装swoole时生成swoole.so已经生成但用phpinfo中查不到扩展的处理方式
- C# 处理重复字串
- 随机生成给定长度的字符串,并且不重复
- 返回一个字符串中重复出现的最长字串的长度及其开始字符
- [模拟赛FJOI Easy Round #2][T1 sign] (模拟+求字符串重复字串)
- leetcode_459. Repeated Substring Pattern 重复子串模式,判断某个字符串能否由某个字串重复若干次组成
- [组合算法] 生成不重复的字符串