您的位置：首页 > 其它

[简要笔记]数学之美

2014-03-22 19:47 225 查看

1 统计语言模型

如果s是由顺序词w1 w2 ... wn组成，那么s是一个有意义的句子的可能性（出现在正是文本中的可能性），可以表示为P(2).

那么P(s) = P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1)

每个词以前面的x个词出现为条件，马尔可夫假设x=1

2 中文分词

字典法：从左向右扫描字符串，如果字典里有，就标注出来，遇到复合词，就选最长匹配。不认识的子字符串就分成单个词。

王晓龙理论：句子应该分成数量最少的词串（歧义性不能识别）

郭进：S的分词方法有a1a2a2,b1b2b3,c1c2c3

P(a1,a2,a3) > P(b1,b2,b3)

P(a1,a2,a3) > P(c1,c2,c3)

则第一个分类是最好的。但是穷举实现非常困难。方法是利用维特比快速实现(还不了解怎么实现）

3 HMM

如果输入是中文s1 s2 s3 输出是英文o1o2o3

则倒推的概率p(s2,s2,s3|01,o2,o3) = p(o1,o2,o3| s1,s2,s3)*p(s1,s2,3)

si 只由si-1决定

oi只由si决定，即p(o1,o2,o3|s1,s2,s3)=p(o1|s1)p(o2|s2)p(o3|s3).

然后找出最大的那组s1s2s3.

4 度量信息和熵

--》可以参考MIT的公开和信息与熵

联合熵(joint
entropy)
如果X, Y 是一对离散型随机变量X, Y ~ p(x, y)，X, Y 的联合熵H(X, Y) 为：
(X,Y)被视为一个事件
H(X,Y)=-Σx∈Ω Σ y∈Ψp(x,y)log2p(x,y)
联合熵实际上就是描述一对随机变量平均所需要的信息量

5 布尔代数和搜索引擎

关键词1在每个网页中出现，可以表示为向量001000001011100000000，关键词2的向量是01100101000000000000

二者与一下就是满足两个关键词的网页

6爬虫，没看

7 信息论在语言模型中的应用

语言模型是根据上下文预测当前文本的模型，模型好坏又信息熵衡量。

模型复杂度：

每个位置填入词的可能行有多少种。0元996 2元60，2元中考虑前后搭配概率则为20

这里面用到信息论的内容，贴过来的：

理解如下

条件熵：是X熵信息的确定情况下，Y信息的不确定的度量 H（Y|X) = -Xigama(X)Xigma（Y） P(y|x)logP(y|x)

联合熵：多变量一起带来的信息量，他比任何一个变量的信息都要多 H(x,y) >= H(x) 并有 H(X,Y) = H(X) + H(Y|X)

互信息：两个集合的相关性 I(x,y）= H。。。。。我也不太理解H(x) - H(x|y)的意义解释。应该是这样，X的熵在知识Y确定条件下的缩减。

互不是共同，是交互和二者的意思。缩减量越大，二者阅相关。

相对熵（KLD）：。。。。啥啊

8 查询结果和网页的相关性

--百度和goole用，NLP我就不写了，基本思想是计算TF*IDF，IDF为权重

9

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航