您的位置:首页 > 其它

WordNet 数据文件格式

2014-09-09 21:22 1276 查看
两种基本数据文件:index.pos 和 data.pos,其中pos包括noun、verb、adj和adv,分别对应名词、动词、形容词和副词。

Index.pos

WordNet中所有词的索引文件,通过这个文件,可以直接找到每个词汇对应的synset_offsets,从而快速地得到待搜索词的语义解释。

Index.pos文件格式

每个index文件头都有几行包括版权说明、版本号以及使用许可协议的文字,这些行都由两个空格和所对应行号开头,以方便程序处理。文件正文每一行都遵从以下的格式:

lemma pos synset_cnt
p_cnt [ptr_symbol...] sense_cnt tagsense_cnt synset_offset [synset_offset...]

lemma 处于语义树底层的单词或短语。其中短语各单词之间用“_”进行分割。

pos 词性,n名词、v动词、a形容词、r副词

synset_cnt lemma所属同义词集合(synsets)的数量。即这个词在WordNet中的义项数目。

p_cnt lemma在所有所属同义词集合(synset)中与其他同义词集合发生关联的数量。

ptr_symbol lemma与其他同义词集合发生语义关联的类别列表,如果lemma与所有其他同义词集合都没有语义关联,则此部分为空,且p_cnt为0

sense_cnt 和上面的synset_cnt一样,这里的重复只是为了兼容性考虑

tagsense_cnt lemma的此义项在本身多
aa59
义项中根据其在文本中出现的频次的排名

synset_offset lemma所属同义词集合(synset)编号

data.pos文件格式

每个data文件头都有几行包括版权说明、版本号以及使用许可协议的文字,这些行都由两个空格和所对应行号开头,以方便程序处理。文件正文每一行都遵从以下的格式:

synset_offset
lex_filenum ss_type
w_cnt word lex_id
[word lex_id...] p_cnt
[ptr...] [frames...] |gloss

synset_offset
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐