您的位置:首页 > 其它

语句的向量表示方法——单词向量组合…

2017-05-05 12:15 288 查看
目标:本文讨论单词向量的组合方式(composition of
word vectors),一般指两个单词向量的组合方式,使得输出的新的向量能够表达组合后的短语的语义。

本文使用符号
u,v:普通的单词向量(u_1,u_2,u_3)和(v_1,v_2,v_3);
p:需要求出的目标短语的向量;
R:一个表征语法关系的矩阵;
K:世界知识等其他非单词语义、语法关系构成的信息;

词语组合的一些假想
1、整体的含义是一个以部分作为自变量的函数的输出(The meaning of a whole is a function of
the meaning of the parts. )




2、整体的含义是一个以部分、以及相应的语法规则作为输入的函数(The
meaning of a whole is a function of the meaning of the parts and of
the way they are syntactically combined.)



3、除了上述输入之外,还应添加其他而外的信息作为输入





实现上述论断的主要困难是对于一个具体的短语,很难判断使用什么方程来进行组合(There is the fundamental
difficulty of specifying what sort "function of the meanings of the
parts" is involved in semantic composition.)。

为了降低困难,可以认为组成短语的单词保持了独立性,适用于这些单词的规则在这些单词出现在其他短语中时也适用。(systematicity:
The ability to understand some sentences is intrinsically connected
to the ability to understand certain others. In other words, if one
understands some sentence and the rules that govern its
construction, one can understand a different sentence made up of
the same elements according to the same set of rules. In combing
parts to form a whole, the parts remain independent and maintain
their identities.)当然这种假设和上文提到的Frege (1884)的论断是矛盾的。

论断三是目前普遍接受的假设,但也并不是无懈可击的。像固定搭配、成语等,是不能从单个词语的含义推断出整体的含义的,这和论断1是完全矛盾的(The
difficulty in defining compositionality is highlighted by Frege
(1884) himself who cautions never to ask for the meaning of a word
in isolation but only in the context of a statement. In other
words, it seems that the meaning of the whole is constructed from
its parts, and the meaning of the parts is derived from the whole.
 Linguistic structures range from fully
compositional (e.g., black hair), to partly compositional
syntactically fixed expressions (e.g., take advantage), and
noncompositional idioms (e.g., kick the bucket) or multiword
expressions (e.g., by and large).)
进一步的,systematicity的想法是有偏见的,它将单词看做了简单的符号。虽然任意两个符号的连接都会产生一个表达,并且这两个符号保留了它们的本意。但我们不能总认为这个新产生的表达就是原有两个符号含义的简单串联。(语言可以构造无穷多的和单词原意无关的新短语。反过来,单词的组合产生的新向量的语义特征介于原有单词向量之间,实际上丢失了真实含义。For
a blending system the properties of the combination lie between the
properties of its elements, which are lost in the average or
mixture. Thus, composition based averaging or blending would
produce greater generality rather than greater
specificity.)。

实际的组合方法
1、逻辑表示法(Logic-based
view)

这类方法是一种语法解析方法,比如蒙塔古语法(Montague),详细的内容可参阅语言学书籍。这类方法认为语法表述与语义结构之间有紧密的对应关系(assuming
a tight correspondence between syntactic expressions and semantic
form),将单词看做语言的基本组成符号,定义这些符号之间的函数,将短语或者句子的含义表达为这些符号组成的逻辑语句的真值条件。比如,按照蒙塔古语法,动词为函数,名词为实体,也就是函数的输入,则语句John
is a good lawyer可以被解析为John is good, John is a
lawyer.这显然不能表达原句的含义。一方面,逻辑表示法可以按照语法规则很好的解析语句,另一方面,这种不考虑单词实际含义的解析很可能不能得到句子的真实含义。

2、连接法(Connection ism)

连接法的提出是直面逻辑表示法的不足的。这种方法的前提是,知识不是逻辑语句中的符号,而是分布于许多运行元素之中的一种激活模式(knowledge
is represented not as discrete symbols that enter into symbolic
expressions, but as patterns of activation distributed over many
processing
elements)。任何一个概念被表达为一个模式,即一个由许多神经元,或者小的神经元集合构成的基本单位构成的向量(any single
concept is represented as a pattern, that is, vector, of activation
over many elements (nodes or units) that are typically assumed to
correspond to neurons or small collections of
neurons)。连接法通过将有限的符号进行连接来构成更多的,甚至是的无穷的结构来加强这种方法的表达能力。实现这一目的的关键手段是捆绑(bind)。捆绑的基本步骤是将符号根据一定的语法过程进行串联,并且这一过程是可逆的。当使用向量来表示这些符号时,Smolensky
(1990)提出了根据张量积(tensor
product,参见博文《张量(tensor)的基本定义》)实现捆绑的方法。两个向量u,v[/b]的张量积是一个矩阵,矩阵的元素u_i×v_j由u,v[/b]中的元素交叉相乘获得。由于张量积的维数会随着向量维数指数增长(两个向量相乘变成一个矩阵),如何克服维数灾难是一个问题。

为了克服维数灾难的问题,后续的研究致力于将两个向量捆绑(bind)的结构映射到和输入向量相同的空间中。Plate(1991)提出的全息(Holographic)降维表示法使用圆周卷积进行降维(circular
convolution)。使用圆周卷积进行降维要求输入向量每一维的取值为实数,且是均值为0,方差为1/n的随机变量。Kanerva
(1988,2009)提出的Binary spatter
codes构建的二进制数串形式的向量是一种更简洁的方法。通过异或操作实现向量间的捆绑。这种方法只保留了张量矩阵中反对角线上的元素。圆周卷积的缺点是它是一种有损的数据压缩方法。
张量和其相关方法的确可以使用向量的方式(distributed
fashion)表示不同的关系(love(x,y))以及role-filler捆绑(e.g., in loves(John,
Mary),the lover r
dda9
ole is bound to John and the beloved role is bound
to Mary)。然而,这种捆绑违反了role-filler的条件独立约束。在严格的组合系统(compositional
system)中,获取复杂结构的含义时该结构的基本组成成分是相对独立的,即组成元素的含义保持不变。但在张量及其相关方法中,为了训练得到捆绑后的含义,表示基本组成元素的神经元的参数可能在训练过程中持续变化。Doumas
and Hummel提出了一种同步神经放电(synchrony of neural
firing)方法。在该方法中,表示关系角色的向量和表示fillers的向量同步放点,而role-filler捆绑整体和其他的role-filler捆绑整体之间异步。

这种方法的另一个问题是神经网络模型的普遍问题,即无法明确特征与符号之间的对应关系,也进一步限制了模型的扩展性。

3、语义空间方法(semantic spaces)
在几何空间中表示单词语义的想法最早可以追溯到Osgood
Suci和Tannenbaum(1957)。他们通过构建语义空间判断相似性。当时的语义空间的特征是人工选取的。以该项工作以及信息抽取领域的向量空间模型为基础,更多新的语义空间被提出,如LSA,HAL等。这些空间基于的假设均为:Words
occurring within similar contexts are semantically
similar。语义空间模型与连接法表示单词的方法类似:单词被表示为向量,而它们的语义分布于维度之上。区别是,在语义空间中,维度的取值既不是二进制,也不是随机分布,而是根据单词与维度之间的共现频率决定的。

在语义空间中,相较于通过组合单词向量生成短语向量,更多的工作致力于直接生成短语的向量。如果一个短语(phrase)出现的频率足够高,就可将其视作独立的单元,并按照上文所述依据共现频率生成对应向量。这种方法的缺陷是,当短语很长时,就很难适用了。因为短语长度越长,数据越稀疏。

向量加法或者平均是最常见的向量组合方式。这种方式的缺点是:一、忽略了语法(语法关系)和词序信息。二、简单地将单词向量混合在一起只是产生了某种介于这些向量之间的新向量。理想的情况是,选择、修改这项向量的某些特征来生成这个短语的真实含义。张量积是一种替代向量加法的方法。但张量积受制于维度膨胀。

下述方法将借鉴逻辑表示法、连接法,来讨论语义空间中单词向量的组合方法。这些讨论将忽略论断三中的提到的世界知识,并假设组合后的向量和输入向量处于相同的空间中(相反的,whether
representations in a fixed space are flexible enough to cover the
full expressivity of language?)。
3.1 假设p[/b]是u[/b]和v[/b]的笛卡尔积的线性方程




其中AB是决u,v定对p贡献的矩阵。
3.1的最简单形式是A和B均为常量1,即




这个方程的输入变量是对称的,词序在这里没有作用。为了区分u和v在词法关系中的不同角色,引入谓词累加的新方程为:




其中n_i是谓词u的邻居。首先选择m个与u_i最近似的邻居,再从这m个邻居中选择k个与v最近似的。这里邻居n_i充当了u的背景知识的角色。

一个更简单的区分两者在语法上依赖关系的方法是引入两个不同的参数α、β:




这种方法的极限情况是其中一个参数为零,比如α为零,则:




在p=u+v方案中,向量u的贡献是不受它与向量v关系的影响的。但是,也许通过u与v之间的相关性重新度量u中每一维度的值是一个更好的选择。因此提出了向量间乘法方法。
3.2 假设p[/b]是u[/b]和v[/b]的张量积的线性方程




其中C是一个秩为三的张量。这是向量间乘法的最一般表达。具体的,如果u和v的维度之间是一一对应的,则一个简化的方法是:




其中

。这个方法将使得向量v的每一维度根据u对应维度的值进行伸缩。这种伸缩是按照所选取的坐标系统进行的,即是依赖于坐标系统的。为了实现坐标独立伸缩,可以按照u的方向进行伸缩。如下图所示,将v分解为平行于u的向量x和垂直于u的向量y,并对分解后的向量进行伸缩。




其中:




如果对x进行伸缩的系数为λ,则v被伸缩后的向量v'为:




由于对上式进行伸缩是不会影响结果向量的方向的,为了便于计算,可以给右式乘以u.u去掉分母,则




上式是一个对称的乘法,即u和v的作用是相同的。而如果取C为单位矩阵,则得到p的矩阵形式(u和v的简单张量积):



同样的,可以使用圆周卷积对张量积进行压缩:




其中,



使用这些乘法操作的一个原因是,u和~v只能影响p的量级,而不会影响p的方向。但是加法模型随着参数对u和v量级的影响,会进一步影响最终p的量级和方向。这种影响尤其在使用cosine进行比较时尤其明显,因为cosine的计算结果直接取决于两个向量的乘积。另外,如上文所述,乘法模型可以看做向量u和v之间互相的影响。这一想法是上文所述逻辑表示法的基础。

3.3
线性方程的好处是易理解。但缺失了非线性方程的表达能力。因此提出如下二次方程形式:





其中D是一个秩为4的张量。

参考文献
composition in distributional models
of semantics
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: