基于Gate的ANNIE插件的中文信息抽取
2013-11-07 17:35
1491 查看
在上一篇文章《基于Gate的中文信息抽取API调用方式--未成功》中本来想采用Gate中的中文插件进行命名实体识别,但是没有成功,最后只能通过扩展Gate中的ANNIE插件来实现了。
ANNIE是Gate中用于英文信息抽取的插件,可以实现英文中的诸如命名实体识别等任务。要想处理中文信息需要对ANNIE进行扩展,包括扩展词表以及规则。ANNIE的主要词表为主目录是ANNIE\resource\gazetteer,后缀名为lst词表文件中存放着词语,词表以UTF-8编码,每个词语独立一行。Gate需要一个索引文件确定词表文件以及类别之间的对应关系,一般为lists.def,内容形如
其中airports.lst为词表文件,location是为词表指定的主要类型,airport为指定的次要类型。这些词表会编译成有限状态机,用于后续过程调用。
语法规则指定需要识别的特定类型,以jape为后缀的文件均是存放的语法规则,放置目录为ANNIE\resource\NE,可以根据自己的需要进行扩展。main.jape存放着所需要的所有规则文件名称。
具体的代码和执行过程与前一篇中的内容一致,主要区别在于加载ANNIE。
执行结果良好,能够达到我的需要。
ANNIE是Gate中用于英文信息抽取的插件,可以实现英文中的诸如命名实体识别等任务。要想处理中文信息需要对ANNIE进行扩展,包括扩展词表以及规则。ANNIE的主要词表为主目录是ANNIE\resource\gazetteer,后缀名为lst词表文件中存放着词语,词表以UTF-8编码,每个词语独立一行。Gate需要一个索引文件确定词表文件以及类别之间的对应关系,一般为lists.def,内容形如
airports.lst:location:airport
其中airports.lst为词表文件,location是为词表指定的主要类型,airport为指定的次要类型。这些词表会编译成有限状态机,用于后续过程调用。
语法规则指定需要识别的特定类型,以jape为后缀的文件均是存放的语法规则,放置目录为ANNIE\resource\NE,可以根据自己的需要进行扩展。main.jape存放着所需要的所有规则文件名称。
具体的代码和执行过程与前一篇中的内容一致,主要区别在于加载ANNIE。
public void initAnnie(){ Out.prln("Initialising ANNIE..."); try { annieController = (SerialAnalyserController) PersistenceManager.loadObjectFromFile(new File(new File(Gate.getPluginsHome(),ANNIEConstants.PLUGIN_DIR), ANNIEConstants.DEFAULT_FILE)); } catch (PersistenceException e) { logger.error(e.getMessage()); e.printStackTrace(); } catch (ResourceInstantiationException e) { logger.error(e.getMessage()); e.printStackTrace(); } catch (IOException e) { logger.error(e.getMessage()); e.printStackTrace(); } Out.prln("...ANNIE loaded"); }
执行结果良好,能够达到我的需要。
相关文章推荐
- 基于Gate的中文信息抽取API调用方式--未成功
- 基于GATE的信息抽取系统介绍
- 基于GATE的信息抽取系统介绍
- 【转】基于GATE的信息抽取系统介绍
- 利用Gate进行中文信息抽取时 不能识别Token.string=="中文"的问题
- 基于jquery的上传插件Uploadify的API中文说明及例题
- 基于TextRank的中文摘要抽取算法(一)
- 基于Web开发模式的信息抽取
- 中文信息抽取技术初探索
- Colortip基于jquery的信息提示框插件在IE6下面的显示问题修正方法
- 基于Eclipse的FindBugs中文插件发布了
- 基于地图开发控件GMap.Net 使用 (六) 中文显示详细街道数据信息
- Web中文信息抽取(2)
- 基于Web开发模式的信息抽取
- Web中文信息抽取(1)
- 基于子树广度的Web信息抽取
- java GUI调用信息抽取工具Gate的方法
- 基于 Ansj 的 elasticsearch 2.3.1 中文分词插件
- 基于TextRank的中文摘要抽取算法(一)
- 基于 Web 的数据挖掘 (自动抽取用 HTML、XML 和 Java 编写的信息)