您的位置：首页 > 其它

使用nlpir分词工具时字符编码问题

2016-03-19 20:54 281 查看

在进行中文自然语言处理时，首先要注意字符编码的转换问题。我在使用nlpir分词工具时遇到如下问题：

句子1：u'不断深化中缅睦邻友好和互利合作，符合两国和两国人民的根本利益。'

句子2：'不断深化中缅睦邻友好和互利合作，符合两国和两国人民的根本利益。'

两个句子的区别就在于句子1是解码后的unicode形式，句子2是utf-8编码，nlpir工具支持多种编码方式，但并不支持解码后的unicode形式，同样调用nlpir.seg()命令，得出不同结果：

句子1：[('\xe4\xb8\x8d\xe6\x96\xad', 'd'), ('\xe6\xb7\xb1\xe5\x8c\x96', 'v'), ('\xe4\xb8\xad', 'b'), ('\xe7\xbc\x85', 'b'), ('\xe7\x9d\xa6\xe9\x82\xbb', 'n'), ('\xe5\x8f\x8b', 'ag'), ('\xe9\x85\xa3', 'ag'), ('\xe9\xa4\x90', 'ng'), ('\xe4\xba\x92\xe5\x88\xa9',
'vn'), ('\xe5\x90\x88\xe4\xbd\x9c', 'vn'), ('\xef\xbc\x8c', 'wd'), ('\xe7\xac\xa6\xe5\x90\x88', 'v'), ('\xe4\xb8\xa4', 'm'), ('\xe5\x9b\xbd', 'n'), ('\xe5\x92\x8c', 'cc'), ('\xe4\xb8\xa4', 'm'), ('\xe5\x9b\xbd', 'n'), ('\xe4\xba\xba\xe6\xb0\x91', 'n'), ('\xe7\x9a\x84',
'ude1'), ('\xe6\xa0\xb9\xe6\x9c\xac', 'a'), ('\xe5\x88\xa9', 'n'), ('\xe4\xb8\x9a', 'ng'), ('\xb5', 'n')]

句子2：[('\xe4\xb8\x8d\xe6\x96\xad', 'd'), ('\xe6\xb7\xb1\xe5\x8c\x96', 'v'), ('\xe4\xb8\xad', 'b'), ('\xe7\xbc\x85', 'b'), ('\xe7\x9d\xa6\xe9\x82\xbb\xe5\x8f\x8b\xe5\xa5\xbd', 'nl'), ('\xe5\x92\x8c', 'cc'), ('\xe4\xba\x92\xe5\x88\xa9', 'vn'), ('\xe5\x90\x88\xe4\xbd\x9c',
'vn'), ('\xef\xbc\x8c', 'wd'), ('\xe7\xac\xa6\xe5\x90\x88', 'v'), ('\xe4\xb8\xa4', 'm'), ('\xe5\x9b\xbd', 'n'), ('\xe5\x92\x8c', 'cc'), ('\xe4\xb8\xa4', 'm'), ('\xe5\x9b\xbd', 'n'), ('\xe4\xba\xba\xe6\xb0\x91', 'n'), ('\xe7\x9a\x84', 'ude1'), ('\xe6\xa0\xb9\xe6\x9c\xac',
'a'), ('\xe5\x88\xa9\xe7\x9b\x8a', 'n'), ('\xe3\x80\x82', 'wj')]

在进行中文处理时，千万要注意工具所支持的编码格式，特别是解码和编码的转换问题

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： nlpir unicode utf-8

相关文章推荐

新的分享

章节导航