您的位置:首页 > 其它

search花絮之语义处理

2006-04-12 11:47 246 查看
语义处理是自然语言处理前沿的热点,其关键作用正逐渐成为学科领域的共识,而我们的中文信息处理强项也在于语义处理,所以很自然就想把这一优势具体体现到搜索项目中来——但毫无疑问这是一个摸索的过程。
最初我负责标题分析的研究,曾随机抽取了一些标题示例,例如:

“移动存储设备”的例子
[[+[移动存储设备]与[读写识别设备]]的[安全[认证方法]]]
[[改变移动存储设备[+功能或状态]]的方法]
[[一种实现随身[+电脑与计算机]间交换数据]的方法]
[[基于USB移动存储技术]的[+[便携式信号[发生方法]]及系统]]
[[可移动]存储装置]
[数字音乐播放装置]
1. “医药”的例子
[化合物的[+[制取方法]及其应用]]
[[[^[[从低纯铝制备]的[铝溶胶]]中]脱除杂质]的方法]
[经改进的[[抗炎]组合物]的[制备方法]]
[三唑杀[真菌剂]]
[薄层电池]
[流体杂质分离器]
2. “农业”的例子
[[制取三唑醇]的方法]
[能引起生物[+[效应[搪瓷板]]及其[制造方法]]]
[[一种深层培养菌丝体***蘑菇栽培种]的工艺]
[微型多功能人力套播机]
3. 其他
[一种[+[羊腿]、[羊排]或猪排][***方法]]
[[一种用于高[折光率]镜片]的[[可聚合]组合物]]

这些例子中有一些标注符号,是当时(去年8月份)短语处理研究的中间结果。而这次标题分析就是在这个基础上,分析语义的结构及其在检索中的应用。
随意看几个例子,如“[数字音乐播放装置]”,这是一种装置,是用来“播放”“音乐(数字音乐)”的,一目了然的信息也就是其语义结构(从短语结构变换迩来相对容易),而无论是“播放磁带音乐的设备”,还是“数字音乐的处理装置”,都是具有一定相似性的。再如,“[化合物的[+[制取方法]及其应用]]”,既包括方法又包括应用,但其核心特征就是“制取化合物”。这种语义结构从其短语结构中进行变换获取时具有一定难度。但对于任意具有这种特征的标题中,相似度应该都比较高。
所以一般的说,研究语义处理在检索中的应用,自然而然就面对两个问题:

u 语义结构的定义与获取
u 语义结构对检索的影响参数的量化

对这两个问题进行回答,并在实践中进行评测检验,其意义是十分重大的;也是在检索中做语义处理的根本入口。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: