WordNet 数据文件格式
2014-09-09 21:22
1276 查看
两种基本数据文件:index.pos 和 data.pos,其中pos包括noun、verb、adj和adv,分别对应名词、动词、形容词和副词。
Index.pos
WordNet中所有词的索引文件,通过这个文件,可以直接找到每个词汇对应的synset_offsets,从而快速地得到待搜索词的语义解释。
Index.pos文件格式
每个index文件头都有几行包括版权说明、版本号以及使用许可协议的文字,这些行都由两个空格和所对应行号开头,以方便程序处理。文件正文每一行都遵从以下的格式:
lemma pos synset_cnt
p_cnt [ptr_symbol...] sense_cnt tagsense_cnt synset_offset [synset_offset...]
lemma 处于语义树底层的单词或短语。其中短语各单词之间用“_”进行分割。
pos 词性,n名词、v动词、a形容词、r副词
synset_cnt lemma所属同义词集合(synsets)的数量。即这个词在WordNet中的义项数目。
p_cnt lemma在所有所属同义词集合(synset)中与其他同义词集合发生关联的数量。
ptr_symbol lemma与其他同义词集合发生语义关联的类别列表,如果lemma与所有其他同义词集合都没有语义关联,则此部分为空,且p_cnt为0
sense_cnt 和上面的synset_cnt一样,这里的重复只是为了兼容性考虑
tagsense_cnt lemma的此义项在本身多
aa59
义项中根据其在文本中出现的频次的排名
synset_offset lemma所属同义词集合(synset)编号
data.pos文件格式
每个data文件头都有几行包括版权说明、版本号以及使用许可协议的文字,这些行都由两个空格和所对应行号开头,以方便程序处理。文件正文每一行都遵从以下的格式:
synset_offset
lex_filenum ss_type
w_cnt word lex_id
[word lex_id...] p_cnt
[ptr...] [frames...] |gloss
synset_offset
Index.pos
WordNet中所有词的索引文件,通过这个文件,可以直接找到每个词汇对应的synset_offsets,从而快速地得到待搜索词的语义解释。
Index.pos文件格式
每个index文件头都有几行包括版权说明、版本号以及使用许可协议的文字,这些行都由两个空格和所对应行号开头,以方便程序处理。文件正文每一行都遵从以下的格式:
lemma pos synset_cnt
p_cnt [ptr_symbol...] sense_cnt tagsense_cnt synset_offset [synset_offset...]
lemma 处于语义树底层的单词或短语。其中短语各单词之间用“_”进行分割。
pos 词性,n名词、v动词、a形容词、r副词
synset_cnt lemma所属同义词集合(synsets)的数量。即这个词在WordNet中的义项数目。
p_cnt lemma在所有所属同义词集合(synset)中与其他同义词集合发生关联的数量。
ptr_symbol lemma与其他同义词集合发生语义关联的类别列表,如果lemma与所有其他同义词集合都没有语义关联,则此部分为空,且p_cnt为0
sense_cnt 和上面的synset_cnt一样,这里的重复只是为了兼容性考虑
tagsense_cnt lemma的此义项在本身多
aa59
义项中根据其在文本中出现的频次的排名
synset_offset lemma所属同义词集合(synset)编号
data.pos文件格式
每个data文件头都有几行包括版权说明、版本号以及使用许可协议的文字,这些行都由两个空格和所对应行号开头,以方便程序处理。文件正文每一行都遵从以下的格式:
synset_offset
lex_filenum ss_type
w_cnt word lex_id
[word lex_id...] p_cnt
[ptr...] [frames...] |gloss
synset_offset
相关文章推荐
- 如何将jpg格式图像文件转化成一系列二进制数据,又如何将此二进制数据转化成jpg格式的文件?
- 用xmlhttp将html的数据打包成multipart/form-data格式,实现异步上传文件功能
- 把mysql 4.0.20的数据表文件(myisam)格式迁移到mysql 5.0下面后phpmyadmin出现乱码
- 将特定格式的TXT数据文件写入EXCEL
- bmp文件的数据格式
- TCL脚本数据文件格式
- CCS“探针”使用的数据文件格式
- SQL 语句读取几种常见文件格式中的数据
- C#源码学习之---将数据库数据以XML文件格式保存
- net控件中数据导到Excel的格式 首先,我们了解一下excel从web页面上导出的原理。当我们把这些数据发送到客户端时,我们想让客户端程序(浏览器)以excel的格式读取它,所以把mime类型设为:application/vnd.ms-excel,当excel读取文件时会以每个cell的格式呈现数据,如果cell没有规定的格式,则excel会以默认的格式去呈现该cell的数据。这样就给我们提供了自定义数据格式的空间,当然我们必须使用excel支持的格式。下面就列出常用的一些格式: 1) 文本
- [开发总结]系统架构及数据模型----AutoDesk文件格式转换篇(五)
- 将DATAGRID的数据导出为一个标准EXCEL格式的文件
- 使用C#把dbf格式文件的数据导入到sqlserver中
- 把数据库里的数据用Excel文件的格式显示在浏览器中
- 将数据控件(如GridView)的内容转化成Excel格式文件
- 用PHP将mysql数据表转换为excel文件格式
- 用xmlhttp将html的数据打包成multipart/form-data格式,实现异步上传文件功能[转]
- 将数据控件(如GridView)的内容转化成Excel格式文件
- vcard 文件数据格式
- 定义的数据文件格式说明