您的位置：首页 > 其它

用perl处理含特殊编码的xml文件

2010-08-30 15:42 411 查看

perl对文本具有强大的处理能力。对于xml的处理，perl自带有XML::DOM 和 XML::Simple两个模块用来处理XML。
XML::DOM过于庞大，而且解析结果是一个DOM树，操作也不方便。我们更多的是处理小型简单的XML文件，所以更多的是采用XML::Simple。

但不管是DOM还是Simple，当涉及到gb2312和GBK编码的时候，虽然对perl用encodeing = "GB2312 " 指定编码，但由于一些火星文，
还是常常解析出错。而且用这两个模块处理的时候，一旦出错，就导致整个文件不能解析。

对于特定的场合，完全可以用perl的正则匹配语法，来处理xml文件。
比如下面的文本

<m>
<c> 今日特价【QQ商城千件秒杀】百事运动防震缓冲慢跑男鞋翼神 </c>
0
<y>0</y>
<t>20100605065101</t>
<k>250470602</k>
</m>
<m>
<c>我想今天买这双鞋</c>
0
<y>0</y>
<t>20100605065125</t>
<k>250470602</k>
</m>

首先，通过下面函数，将每一个消息隔开。注意其中消息可能换行的处理。
sub processmessages
{
my $processmessages = $_[0];
if($processmessages =~ /<message>(.*)<//message>/)
{
my $msgcont = $1;
while( $msgcont =~ /<m>(.*?)<//m>(.*)/ )
{
my $onemesg = $1;
#print "#########################/n";
&processonemsg($onemesg);
#print "/n########################/n";
}
}
}

然后对每条消息进行处理

sub processonemsg
{
my $mesg = $1;
if ($mesg =~ /<c>(.*)(.*)<y>(.*)<//y><t>(.*)<//t><k>(.*)<//k>/)
{
print ResultFile $caseid;
print ResultFile "/t";
print ResultFile $bossid;
print ResultFile "/t";
print ResultFile $casestarttime;
print ResultFile "/t";
print ResultFile $caseendtime;
print ResultFile "/t";
print ResultFile $3;
print ResultFile "/t";
print ResultFile $4;
print ResultFile "/t";
print ResultFile $5;
print ResultFile "/t";
print ResultFile $1;
print ResultFile "/n";
}
}

这样，完全规避了对其中非ascii编码的处理。不管什么编码格式，都可以处理。
一旦有个别消息不能处理，丢弃的只是个别消息，而不会影响整个文件的处理。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航