您的位置:首页 > 运维架构 > Linux

python NLP工具 polyglot在centos 6 上安装

2016-11-01 10:39 671 查看

python NLP工具 polyglot在centos 6 上安装

最近要做多语言的文本处理,就去调研一下有什么好用的现成工具,最后发现了polyglot。

这工具虽说支持多语言,但是用过发现比不是很好用,可能做多难做精。还是写一下怎么安装吧。

初入坑

先说说最初遇到的坑:polyglot官网上的install是在ubuntu上进行的,也很简短,相信ubuntu的童鞋也会遇到不少问题。

我一开始使用yum安装libicu-devel模块,发现其安装的只有icu和icu4j,并没有icu4c。所以后面直接pip install pyicu的时候会报错。

所以后来我下载了icu4c的源码安装,版本为4.8.1.1。后面pip install pyicu成功。

但是。。。

在Python中import _icu(这个语句其实在polyglot安装成功后import polyglot.text是报错发现的)的时候,发现importerror …. _icu.so: no defined …(忘了)

所以我们这个动态链接库是没有build成功的。

可能是pip install的时候没有生成一个好的_icu.so

所以我们要在安装python模块的时候入手,icu4c模块应该没问题了。

编译安装成功

我就不用pip安装了,直接下源码

wget https://pypi.python.org/packages/bf/1f/cea237f542e3bb592980008a734850e8cbbc25c19c72c98767c71c1bd9c2/PyICU-1.9.3.tar.gz # (去官网下载,我的是1.9.3)

tar zxvf PyICU-1.9.3.tar.gz
cd PyICU-1.9.3.tar.gz


此时如果你是linux系统要修改一下setup.py文件





python setup.py build
sudo python setup.py install


此时测试一下是否安装成功



成功!

用了一个下午装,真浪费时间,希望这个多语言的NLP工具真的有用(后证明效果一般)。

资料:

http://see.sl088.com/wiki/Centos_%E5%AE%89%E8%A3%85ICU#.E8.B5.B7.E5.9B.A0 icu4c安装,这里的./runConfigureICU脚本别忘了执行

http://stackoverflow.com/questions/13656756/pyicu-failed-to-link-icu4c-on-mountain-lion/13666383 这个问题是动态链接库问题,跟我之前遇到的很像,可以参考

https://pypi.python.org/pypi/PyICU/ pyicu官网,可以参考安装python的icu模块
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  centos python ubuntu nlp