您的位置：首页 > 其它

基于Gate的ANNIE插件的中文信息抽取

2013-11-07 17:35 1491 查看

在上一篇文章《基于Gate的中文信息抽取API调用方式--未成功》中本来想采用Gate中的中文插件进行命名实体识别，但是没有成功，最后只能通过扩展Gate中的ANNIE插件来实现了。

ANNIE是Gate中用于英文信息抽取的插件，可以实现英文中的诸如命名实体识别等任务。要想处理中文信息需要对ANNIE进行扩展，包括扩展词表以及规则。ANNIE的主要词表为主目录是ANNIE\resource\gazetteer，后缀名为lst词表文件中存放着词语，词表以UTF-8编码，每个词语独立一行。Gate需要一个索引文件确定词表文件以及类别之间的对应关系，一般为lists.def，内容形如

airports.lst:location:airport

其中airports.lst为词表文件，location是为词表指定的主要类型，airport为指定的次要类型。这些词表会编译成有限状态机，用于后续过程调用。

语法规则指定需要识别的特定类型，以jape为后缀的文件均是存放的语法规则，放置目录为ANNIE\resource\NE，可以根据自己的需要进行扩展。main.jape存放着所需要的所有规则文件名称。

具体的代码和执行过程与前一篇中的内容一致，主要区别在于加载ANNIE。

public void initAnnie(){
Out.prln("Initialising ANNIE...");
try {
annieController = (SerialAnalyserController) PersistenceManager.loadObjectFromFile(new File(new File(Gate.getPluginsHome(),ANNIEConstants.PLUGIN_DIR), ANNIEConstants.DEFAULT_FILE));
} catch (PersistenceException e) {
logger.error(e.getMessage());
e.printStackTrace();
} catch (ResourceInstantiationException e) {
logger.error(e.getMessage());
e.printStackTrace();
} catch (IOException e) {
logger.error(e.getMessage());
e.printStackTrace();
}

Out.prln("...ANNIE loaded");
}

执行结果良好，能够达到我的需要。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： ANNIE 命名实体识别中文信息抽取

相关文章推荐

新的分享

章节导航