您的位置:首页 > 其它

中文文本分类的关键技术

2008-07-05 15:03 232 查看

2.1中文词的切分技术

中文文本与西文文本不同,西文的书面形式以空格作为词与词之间的分隔,而汉语是一种没有明显的形态界限可以作为分词依据的表意语言,因而在中文文本的处理中面临的第一个问题就是词切分问题。自动分词是中文文本信息处理的第一步。在自动文本分类技术中,基于字频的分类方法在实际使用中较为少见,大多数分类方法都是基于词的,而一些基于自然语言理解的方法也必须首先对文本进行分词。而且,由于中文特有的书写形式、灵活多变的构词方式以及对句子采取不同的分词形式可能产生完全不同的含义,对中文文本的自动切分比较困难。通常我们理解句子的含义却一般都要借助词汇,因此从目前来看要表示文本文档必须要获得文档中的词汇。目前,对汉语的分词技术主要有三种方法:形式分词方法、语法分词方法、和语义分词方法。
形式分词方法:所谓形式分词不是直接进行语法、语义分析,而只是借助于分词词典,基于一些统计信息进行分词的一种方法。基本上可分为两种途径:

1) 词典匹配法:词典匹配法的基本思想是事先建立一个词库,其中包含所有可能出现的词。对给定的待分词的汉字串,按照某种确定的原则切取其子串,若该子串与词库中的某词条相匹配,则该子串是词,继续分割剩余的部分,直到剩余部分为空;否则,该子串不是词,转上重新切取其子串进行匹配。

2) 停用词法:停用词法的基本思想是事先建立一个停用词库,其中包含各种具有切分划分语句的词。对给定的汉字串,首先根据停用词将其分割成若干个较短的子串,然后对每个子串分别采用词典匹配法进行切分。该方法实际是对词典匹配法的一种改进。

语法分词方法:所谓语法分词方法指对文章进行语法分析后,根据一定的语法规则对句子进行分词的一种分词方法。

首先需要建立一套汉语语法规则,该规则不但给出成分的结构,而且还给出它的子成分之间必须满足的约束条件。另外,还需要建立一个词库,其中包含所有可能出现的词和他们的各种可能的词类。为了加快分析速度,一般将整个语法规则库分成若干个子库。每个子库中的规则实际上就是一个产生式加上一个关于该产生式各分量的约束条件。约束条件可实现成布尔函数。

基本过程是:对给定的待分词的汉语句子,按照某种确定的原则切取其子串,若该子串与词库中的某词条匹配,则从词库中取出该词的所有词类,然后根据语法规则进行语法分析(包括语法分析书的构造和约束条件的检查等等,这里不但要使用该词的所有词类,而且还要使用前面已分析部分的结果)。若分析正确,则该子串是词,即下语法分析的结果作为后继切分的基础,继续分割剩余的部分,直到剩余部分为空;否则,该子串不是词,转上重新切取子串进行匹配。

语法规则的形成是自然语言形成的结果,是用计算机分析和处理自然语言的前提和基础。事实上,正是为了实现自然语言的形式化而建立了形式语言理论。另一方面,在用形式语言理论来描述和处理自然语言的过程中所遇到的各种问题又不断地促使新理论的提出和完善。但是,目前为描述和处理自然语言而提出的形式语法规则还不能完全覆盖丰富多彩的自然语言现象。因此语法分析法的应用将不可避免有其局限性。另外,语法分析法要求保存分析时产生的所有中间结果,它的空间开销也很大。

语义分词方法:语义分词方法是具有“理解”成分的切分法。它与语法分析法的关系是:后者是前者的基础。

语义分词方法的基本思想是:事先建立一个词库,其中包含所有可能出现的词和它们的各种语义信息。对给定的待分词的汉语句子,按照某种确定的原则切取其子串,若该子串与词库中的某词条相匹配,则从词库中取出该词的所有语义信息,然后调用语义分析程序进行语义分析。若分析正确,则该子串是词,即下语法分析的结果作为后继切分的基础,继续分割剩余的部分,直到剩余部分为空;否则,该子串不是词,转上重新切取子串进行匹配。

常见的表示方法有基于各语法的语义框架法、语义网络法、概念结构法、功能描述法等。

语义分析结果的形成由对应的语义分析程序来负责,词库中需记录那些语义信息以及它们的表示形式,这些问题都根据语义分析程序的需要来确定。由于语义分词方法的最终结果包括分析结果的内部表示,所以它为后继的处理提供了一个很高的起点。但是,为了有效地实现语义分词方法,还有许多理论问题需要研究。并且,即使采用语义分词方法也不能解决所有的歧义切分问题。

实际上,任何分词方法都不可避免出现歧义性,比较而言,语法、语义分析方法较繁琐,形式分词方法则具有简单实用的优点,得到广泛的应用。

在传统的文献检索中通常采用词(words )或者n-grams (N-元长度为n

的有序单词集合)法来做中文句子的切分(Segmentation ),词的切分需要自动分词技术,n-grams[25]法优点在于不需要语言学领域的知识,这是中文和其他亚洲语言使用它的主要原因。n-grams的做法是简单地把字符串切分成固定长度的单元,一般我们使用一元(uni-grams )或者二元(bi-grams)法。例如我们把“文本挖掘”按一元法切分为“文”、“本”、“挖”、“掘”四个单元,或者按二元法切分为“文本”、“挖掘”两个单元。据统计研究发现中文中平均的词汇长度为1.59,因此二元法能成功地覆盖绝大多数的中文词汇。可以看出n-grams法比较机械,而另一种方法即自动分词,它需要语言学领域的知识支持,例如需要一部词典,它是由手工创建的,并且存储尽可能多的已知词汇,需要词汇构成的启发式规则,需要对一些同时出现的汉字的统计数字。自动分词和n-grams各有自己的优缺点,有人通过实验证明把二者结合起来效果会好一些。
我国对自动分词的相关研究已进行了十几年,清华大学计算机系、北京大学计算语言学研究所和山西大学计算机系等都有接近实用的实验系统,它们的切分准确率一般可以超过90% 。

§2.2文本特征的表示

由于对文本进行深层次理解的技术还不完善,因此,人们在对文本集进行分类时,常常采取这样的策略:先用一个高度概括的向量来表示一篇文本,将文本集概括成一个向量集,这个向量集等同于一个二维表格,然后通过对文本集对应的向量集进行相关的分析,达到对文本集进行自动分类的目的。

大规模文本处理的对象是大量的真实文本,要使得计算机能够高效率、高性能的处理自然文本,就必须找到一种理想的文本表示方法。文本表示最理想的境界就是模拟人所理解的语义,通过函数f,使得:人们所理解的语义=f(文本)

一旦找到了合适的函数来表示人所理解的语义,那么整个问题就变得简单了。对文本分类的过程就可以转化为一个搜索问题,即寻找和新文本函数值差异最小的文本类。

但不幸的是,这种精确反映人所理解语义的函数是很难定义的,或者极端一点说,也许根本就不存在。对于形式语言而言,语义还可以通过机器状态的改变来描述,我们也正是通过这种方式来学习和掌握机器语言的;可是对于自然语言而言,由于涉及到人这个认知主体的思维活动,不同的认知主体往往会有不同的理解,自然语言的形式及其意义之间是一种多对多的关系,很难合理地定义一个反映语义的函数。

既然这种寻求精确反映人所理解语义的道路是不可行的,那么我们只好退而求其次,寻求一种能够量化、能够形式化、最终可以计算和操作的表示方法。一种可行的方案就是走统计路线,研究从大规模语料库中发现出来的统计规律,利用文本在特征集合上的分布来近似表示语义。

现在描述文本最常用的方法就是用文本的特征项及其在文本中的权重来表示。求文本特征项及其权重的方法有很多,常用的有布尔逻辑模型、概率逻辑模型、向量空间模型等。

§2.2.1 布尔模型(Boolean Model)

布尔模型[26]就是采用布尔表达式对文本进行标识。布尔模型在传统的信息检索中有广泛的应用,它是最简单的检索模型,也是其他检索模型的基础。它是一种简单的严格匹配模型(Exact Match Model),它定义了一个二值变量集合来表示文本:

 
其中

布尔模型实现简单,其优点是速度快。但布尔模型忽略了元数据的文档项频率,所以无法在匹配结果集中进行相关性大小排序。且逻辑表达式过于严格,往往会因为一个条件未满足而忽略了其他全部特征项,造成重要特征大量的遗漏。

§2.2.2 概率模型(Probabilistic Model)

概率模型[27]考虑词与词的相关性,把文本集中的文本分为相关文本和无关文本。以数学理论中的概率论为原理,通过赋予词某种概率值来表示这些词在相关文本和无关文本出现的概率,然后计算文本间相关的概率,系统据此概率做出决策。
概率模型有多种形式,常见的一种称之为第二概率模型,其基本思想是:词的概率值一般是对重复若干次相关性计算,每重复一次,就由用户对检出文本进行人工判断。然后利用这种反馈信息,根据每个词在相关文本集合和无关文本集合的分布情况来计算它们的相关概率,在该模型中,词的权值定义为:

其中,分别表示词在相关文本集和无关文本集中出现的概率。概率模型的优点是采用严格的数学理论为依据,为人们提供了一种数学理论基础来进行匹配,采用相关性反馈原理,可开发出理论上更为坚实的方法。缺点是增加了存储和计算资源的开销,且参数估计难度较大。

§2.2.3 向量空间模型(Vector Space Model, VSM)

向量空间模型是由Salton于1968年提出的,一直以来都是信息检索领域最为经典的计算模型。向量空间模型一般使用词来代表文本的特征信息,每个词称为一个特征项。在向量空间模型中,每一个文本都被表示为由一组规范化正交词条矢量所组成的向量空间中的一个点,即形式化为维空间中的向量。其文本表示形式为:

其中 为特征项词条, 为特征项在文本中的权重。特征项的权重是用以刻画该特征项在描述文本内容时所起作用的重要程度。权值越大,表示该特征项在文本中的份量越大,即该特征项越能反映文本的内容。通常使用词频来表示特征项的权重。词频分为绝对词频和相对词频两种:绝对词频是指词在文本中出现的频率;相对词频是规范化的词频,即要求所有向量分量的平方和为1。相对词频的计算方法主要运用TF-IDF(Term Frequency-Inverse Document Frequency)公式,TF-IDF公式是由Salton和McGill在1983年针对向量空间信息检索范例
(Vector Space Information Retrieval Paradigm)提出的文本特征表示方法,其中TF表示词频,指特征项词条在给定文本中出现的次数;IDF表示倒排频度,是反映一个特征项在一个文本集中按文本统计出现频繁程度的指标。一种较为普遍的TF-IDF公式如下:

其中, 为词t在文本 中的权重,而为词t在文本中的词频,N为训练文本的总数,n为向量的维数,为向量第i个分量对应的特征项,为训练文本集中出现 的文本数,为训练文本集中出现t的文本数,分母为规范化因子,使每一个特征词的权重在[0,1]之间。

TF-IDF公式表示文本的方法提出了这样一个假设:对于区分文本类别最有意义的词条应该是那些在本类文本中出现频率足够高,而在整个文本集合的其他类别的文本中出现的频率足够的低的词条。向量空间模型的优点:使得文本内容被形式化到多维空间中的一个点,通过向量形式给出,将文本以向量的形式定义到了实数域中,提高了自然语言文档的可计算性和可操作性;为特征词引进权值,通过调节词对应权值的大小来反映特征词与所在文本的相关程度,部分地克服了传统布尔模型的缺陷[28]。其缺点是:过于利用一个文本的“与众不同”之处,反而忽略了文本共有的特性。且基于词汇层描述文本特性,忽略了文本内具有相似意义的词条间的关系。

§2.3文本特征的提取

文本中词空间维度很高,并且不同的词对文本内容的贡献是不等的,因此需要度量词在文本中的权重,只有大于一定权重阈值的词才能作为表征文本内容的关键词。关键词的提取也称为文本特征的提取,特征提取可以在一定程度上缓解过匹配现象。

采用统计方法的模式识别使用特征参数将模式表达为特征空间的向量,然后使用判别函数进行分类。随着数据量的增加,特征提取将逐步变得困难,所谓特征提取就是对原始数据进行分析,发现最能反映模式分类的本质特征。随着维数的增长,计算开销将急剧增加,需要对特征空间的维度进行降维处理。因此模式的特征提取和选择是这一技术的关键。文本特征提取的本质是高维数据的降维技术,即将高维数据通过变换映射到低维空间。降维方法的主要问题在于,从高维到低维的变换有可能掩盖数据原有的信息,这样原先在高维空间存在明显差异或特征的类别在低维的空间内会混杂在一起难以区分。因此,从高维空间向低维空间变换的关键就在于寻找适合的映射,将高维空间的目标信息尽可能真实地映射到低维空间。

特征提取的方式有四种:

第一种方式是用映射或变换的方法把原始特征变换为较少的新特征;

第二种方式是从原始特征中挑选出一些最具代表性的特征;

第三种方式是根据专家的知识挑选最有影响的特征;

第四种方式是用数学的方法进行选取,找出最具分类信息的特征,这种方法的人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。目前,常用的方法有评估函数法、主成分分析法、模拟退火算法等。本文在这里只介绍一下评估函数方法:

不同的特征项对于文档的重要性和区分度是不同的,通常高频特征项在多个
类中出现,并且分布较为均匀,因此区分度较小,而低频特征项由于对文档向量的贡献较小,因此重要性也较低。去除区分度较小的噪音特征项可以提高分类正确率,去除重要性较低的低频特征项可以加快运行速度。因此需要建立合适的特征评价函数,对特征项进行选择。用评估函数的方法进行特征提取的思想是对特征集中的每个特征进行独立的评估,这样每个特征将获得一个评估分值,然后对所有的特征按照其评估分值的大小进行排序,选取预定数目的最佳特征作为特征子集,其中阈值的选取要根据具体问题的实验来确定。常用的方法有词频(DF: Document Frequency)、互信息(MI: Mutual Information)、信息增益(IG: Information Gain). 统计量等方法[29],下面将对其进行简要介绍。

§2.3.1词频方法

词频就是文档集合中出现某个特征项的文本数目。在特征项选择中,计算每个特征项在训练集合中出现的频次,根据预先设定的阈值去除那些词频特别低和特别高的特征项. 词频的计算复杂度较低,随训练集的增加而线性增加,能够适用于大规模语料,因此是特征降维的常用方法。
其基本原则是:很少出现的特征对分类价值极小,对整个分类系统的效果影响也很小,因此,将这些特征去掉有助于降低特征空间维数,并且当这些不常出现的特征为噪音时,还会有助于提高分类正确率。但在信息检索领域,词频较低的特征项被认为是信息含量较高,与文本分类中的原则是相反的。
词频是最简单的特征降维方法,易用于线性计算的集合,但是不适用于回归词语的排除[29]。

§2.3.2互信息方法

互信息可以度量特征项和类别的共现关系,特征项对于类别的互信息越大,
它们之间的共现概率也越大。假设文档集合C分为K类,记为,特征项 对于文档类别 的互信息的计算公式如下:

其中 为特征项 出现在类 中的概率
下面给出基于互信息的特征提取算法步骤:
1) 初始情况下,该特征集合包含所有该类中出现的词;
2) 对于每个词,按照上面的公式计算词和类别的互信息量;
3) 对于该类中所有的词,依据它们的互信息量排序;
4) 提取一定数量的词作为特征项,具体需要抽取多少维的特征项,目前无很好的解决方法,一般采用先定初始值,然后根据实验测试和统计结果确定最佳值;
5)将每类中所有的训练文本,根据抽取的特征项,进行向量维数压缩,精简向量表示。
互信息的不足之处在于互信息量非常容易受词条的边缘概率的影响,使得
互信息评估函数经常倾向于选择稀有词条。

§2.3.3信息增益方法

信息增益在机器学习中经常被用做特征词评判的标准,它是一个基于熵的评估方法,涉及较多的数学理论和复杂的熵理论公式,定义为某特征在文本中出现前后的信息熵之差。信息增益可以度量特征项在某种分类下表示信息量的多少,以正反两类(用1,-1来代表)的情况为例,通过计算信息熵得到那些在正例样本中出现频率高而在反例样本中出现频率低的特征项,以及那些在反例样本中出现频率高而在正例样本中出现频率低的特征项。根据训练文本,计算出各个特征词的信息增益,按照信息增益的值从大到小排序,根据给定阈值,删除信息增益较小的特征项。信息增益的评估函数定义为:

在中,如果W出现倾向于表明文本属于类,那么它的值为正;如果W出现倾向于表明文本不属于类,那么它的值为负;如果W出现与类是否出现无关,那么它的值为零。但是如果对值简单求和,就会出现这样的问题:特征项与各类无关,其信息增益接近于零,特征项的出现非常倾向于类 出现且类 不出现,本来非常重要,但对值求和后正、负对数值相抵消,其信息增益也接近于零,这样就无法区分与 。解决这一问题的方法有两种:一是对值取绝对值后再相加,另外一种是不考虑负相关,去除值小于零的情况。
信息增益的不足之处在于,它考虑了词条未发生的情况。虽然某个词条不出现也可能对判断文本类别有贡献,但实验证明,这种贡献往往远远小于考虑词条不出现情况所带来的干扰。

§2.3.4 统计

统计评估函数被定义为:

其中概率 是指对于文本 ,特征词条不存在其中,但 属于类 中,是训练集的势。直观地看,的值越小,说明特征词条 关于类的独立程度越高,因此,我们选择那些值最大的特征词条。
如果词条 和类 是相互独立的,统计为零。在训练集中的每个词条和类之间计算每个类的统计,然后结合每个词条的针对某个类的得分,按如下方式评估:

统计得分的计算有二次复杂度,相似于互信息和信息增益。在统计和互信息之间主要的不同是是规格化评价,因而评估分值对在同类中的词是可比的,但是统计对于低频词来说是不可靠的。

§2.4文本相似度

通过特征提取可以获得文本对应的关键词向量,也可以获得文本对应的关键词相对词频向量。一般认为,相似的文本具有相似的关键词或相对词频,因此,可以给予关键词向量或关键词相对词频向量计算一组文本的相似度,利用文本的相似度,就可以对文本进行分类了。

文本与词的相关矩阵如图2.1所示,其中 表示第篇文本与第 个词的相关程度,的取值范围为[0,1]。相关矩阵中的行描述一篇文本的特征,称之为文本的特征向量,列表示每个特征项与文献集的相关程度。

图 2.1 文本与词的相关矩阵
利用文本与词的相关矩阵,就可以通过数学方法来分析文本间的相关性。计算相关度的方法有很多种,其中,最常用的为余弦系数法。用向量空间模型表示的文本D1和D2的余弦相似度的计算公式为:

=

由于余弦相似度计算法没有考虑词与词之间的依赖性,因此,它的精确度依赖于特征词提取的精确度。基于词间关系的计算法从一定程度上解决了这个问题。在计算相似度的时候可以利用语词对的共现(co-occurrence),这种方法只有在拥有相关领域的一个文本集合且这个集合足够大的情况下,或者在词汇共现词典已经存在的情况下才能使用。另外,也可以利用词汇之间的句法关系来计算相似度。通过句法语义分析,可以从文本中抽取出一个分析网络(Analysis Network)作为文本的简化。这个网络中包含着一些形如(关系,元素一,元素二)的元组,其中,“元素一”和“元素二”对应两个名词,“关系”通常对应一个动词,“元素一”和“元素二”在句法上具有用“关系”表示的相近的联系。通过计算相应的分析网络间的词一致性(term agreement)、词对一致性和行一致性(line agreement)的权值和,可以进行相似度的度量。

§2.5评估方法

因为文本分类从根本上说是一个映射过程,所以评估文本分类系统的标志是映射的准确程度和映射的速度。映射的速度取决于映射规则的复杂程度,而评估映射准确程度的参照物是通过专家思考判断后对文本的分类结果(这里假设人工分类完全正确并且排除个人思维差异的因素),与人工分类结果越相近,分类的准确程度就越高,这里隐含了评估文本分类系统的两个指标:准确率和查全率。

准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。其数学公式表示如下:

查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率,其数学公式表示如下:

准确率和查全率反映了分类质量的两个不同方面,两者必须综合考虑,不可偏废,因此,存在一种新的评估指标,F1 测试值,其数学公式如下:

另外有微平均和宏平均两种计算准确率、查全率和 F1 值的方法。

微平均:计算每一类的准确率、查全率和 F1 值。

宏平均:计算全部类的准确率、查全率和 F1 值。``12

所有文本分类系统的目标都是使文本分类过程更准确,更快速。

§2.6 小结

本章主要介绍了中文文本分类问题所涉及的几个关键技术,包括中文文本的词切分技术、文本的特征表示、文本特征提取技术、文本相似度的计算和文本分类效果的评估方法。这些技术的应用会在第四章中有具体的介绍。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: