您的位置:首页 > 其它

俞士汶教授谈中文语言处理(三)

2008-07-04 12:36 162 查看
6、如何看待中文分词技术和中文搜索引擎两者之间的关系?

以“字索引”支撑的全文检索技术应用到网页检索之所以不再有昔日的辉煌就是因为互联网上的信息太多了,量变引起质变,提高查准率成为主要追求目标。对网页文本进行切分建立词索引为搜索引擎提供了新的发展机遇。

现在,在Yahoo,Google,百度等网站上检索“华人”,给出的结果不再包含关于“中华人民共和国”的网页信息,就是搜索引擎技术有重要进展的体现。

不过有两点需要说明:

第一,这样的技术并非是中文特别需要的,对于英语,如果只对word作索引,要检索对应中文“笋”的“bamboo shoot”,会检索到大量分别同“bamboo”或“shoot”相关的网页,同样降低了检索“bamboo shoot”的正确率。

第二,不正确的切分对查准率和查全率都有损害,还是举第2个问题答案中的例子,用户键入“白天鹅”,原本要检索“白色的天鹅”,如果切分成“白天/ 鹅/ ”,岂非“失之毫厘,谬以千里”。

7、什么是中文命名实体的抽取技术?它和分词技术之间有什么关系?

2006年SIGHAN在其组织的比赛中增加了中文命名实体识别的项目。所谓命名实体在文本中就是指人名、地名、机构团体名称、商品名称等专有名词。因为它们通常具有唯一性,在信息检索、信息提取等应用系统中受到特别的重视(当然要另有办法解决难以完全避免的重名问题)。比SIGHAN早很多,TREC (Text REtrieval Conference)也组织过这类项目的比赛。 命名实体识别或者说抽取就是把这些专有名词从文本或语句中分离出来。不难理解,命名实体抽取和词语切分需要融合处理。

由于词典或训练语料的有限性,命名实体识别常常表现为新词识别。机构团体的名称通常很长,常由既有的切分单位组合而成。如果先做命名实体识别,对于由很多词组成的单位名称,又有进一步切分的必要。有时,专有名词与普通名词的词形并无区别,如“凤凰卫视中文台”及其简称“凤凰台”是实体的专名,而其中的“凤凰”、“卫视”、“中文台”都是普通名词,“卫视”又是“人造卫星转播电视”的缩略语,这些问题纠缠在一起,无论中文命名实体抽取还是一般意义上的词语切分都还有深入研究的必要。

8、随着中文信息数字化进程的加快,特别是搜索引擎行业的发展,对中文语言处理人才的需求在加大,请介绍一下目前国内在这方面教育情况?

根据中国国家标准《学科分类与代码表》(GB/T13745--92 )。在一级学科“计算机科学技术”下的二级学科“人工智能”里包含三级学科“自然语言处理”(520.2020)。在一级学科“语言学”下的二级学科“应用语言学”里包含三级学科“计算语言学”(740.3550)。

由此可见,自然科学与语言学交叉渗透所取得的成果在学科体系中已经有了一席之地。不过,无论是“计算语言学”还是“自然语言处理”都还是三级学科,这意味着在大学里设置系或专业从本科起就开始培养中文信息处理人才还是受到限制的。据笔者了解,目前只有北京大学中文系设有应用语言学(中文信息处理)专业,南京师范大学设有语言技术系。

不过,培养研究生的路子就宽多了,中国的大学大约1990年代初开始培养“计算语言学”和“自然语言处理”研究方向的博士生,培养硕士生更早,1980年代中期就开始了。现在已有相当数量的博士和硕士在发挥生力军的作用。 不过,按“计算语言学”和“自然语言处理”研究方向培养的博士和硕士属于高级研究人才,数量毕竟有限,满足不了中文信息化迅速发展的需求。特别是搜索引擎等信息服务业的发展,更增加了对既有计算语言学理论基础、又有丰富的语言工程实践经验的工程技术人员的需求。

鉴于这样的认识,在杨芙清院士的倡导下,北大计算语言研究所和北大软件与微电子学院决定共同建设语言信息工程系,下设语言信息处理和计算机辅助翻译两个专业。对学习合格的学生将授予北京大学工程硕士学位。这是中国计算语言学研究逐步成熟、走向社会、服务大众的又一重要标志。

9、请简要介绍一下北大计算语言所的背景。开展了哪些中文语言处理方面的研究?取得了什么样的成绩?

北京大学计算语言学研究所(Institute of Computational Linguistics,ICL)成立于1986年,是一个文理学科结合的研究所。20年来,在培养了数十名博士、硕士的同时,在计算语言学和自然语言处理技术领域进行了广泛、深入的研究,研究课题涉及语言模型与分析技术、计算词典学与词典编纂、语料库语言学、术语学与术语标准化、计算语义学、机器翻译的理论与技术、自然语言处理评价技术、信息提取与信息检索技术、中国古诗计算机辅助深层研究等,这些课题来自国家973、国家863、国家自然科学基金、国家社会科学基金、国家科技攻关项目和部级项目,也有与国内外著名企业、大学、研究机构的横向合作项目。

除了论著之外,北大计算语言所在语言数据资源建设方面有较多的积累:现代汉语语法信息词典(8万词语),大规模现代汉语基本标注语料库(6000多万汉字),面向汉英机器翻译的现代汉语语义词典(6万),面向跨语言文本处理的中文概念词典(10万概念),句子对齐的双语语料库(80万句对),多个专业领域的术语库(35万术语),现代汉语短语结构规则库(600条规则)以及支持这些知识库建设的工具软件,如汉语词语切分及词性标注软件、汉语词语注音软件等,这些知识库和软件已在世界各地得到广泛应用,产生了广泛的影响。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: