[简要笔记]数学之美
2014-03-22 19:47
225 查看
1 统计语言模型
如果s是由顺序词w1 w2 ... wn组成,那么s是一个有意义的句子的可能性(出现在正是文本中的可能性),可以表示为P(2).
那么P(s) = P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1)
每个词以前面的x个词出现为条件,马尔可夫假设x=1
2 中文分词
字典法:从左向右扫描字符串,如果字典里有,就标注出来,遇到复合词,就选最长匹配。不认识的子字符串就分成单个词。
王晓龙理论:句子应该分成数量最少的词串 (歧义性不能识别)
郭进:S的分词方法有a1a2a2,b1b2b3,c1c2c3
P(a1,a2,a3) > P(b1,b2,b3)
P(a1,a2,a3) > P(c1,c2,c3)
则第一个分类是最好的。但是 穷举实现非常困难。方法是利用维特比快速实现(还不了解怎么实现)
3 HMM
如果输入是中文s1 s2 s3 输出是英文o1o2o3
则倒推的概率p(s2,s2,s3|01,o2,o3) = p(o1,o2,o3| s1,s2,s3)*p(s1,s2,3)
si 只由si-1决定
oi只由si决定,即p(o1,o2,o3|s1,s2,s3)=p(o1|s1)p(o2|s2)p(o3|s3).
然后找出最大的那组s1s2s3.
4 度量信息和熵
--》可以参考MIT的公开和信息与熵
联合熵(joint
entropy)
如果X, Y 是一对离散型随机变量X, Y ~ p(x, y),X, Y 的联合熵H(X, Y) 为:
(X,Y)被视为一个事件
H(X,Y)=-Σx∈Ω Σ y∈Ψp(x,y)log2p(x,y)
联合熵实际上就是描述一对随机变量平均所需要的信息量
5 布尔代数和搜索引擎
关键词1在每个网页中出现,可以表示为向量001000001011100000000,关键词2的向量是01100101000000000000
二者与一下就是满足两个关键词的网页
6爬虫,没看
7 信息论在语言模型中的应用
语言模型是根据上下文预测当前文本的模型,模型好坏又信息熵衡量。
模型复杂度:
每个位置填入词的可能行有多少种。0元996 2元60,2元中考虑前后搭配概率则为20
这里面用到信息论的内容,贴过来的:
理解如下
条件熵:是X熵信息的确定情况下,Y信息的不确定的度量 H(Y|X) = -Xigama(X)Xigma(Y) P(y|x)logP(y|x)
联合熵:多变量一起带来的信息量,他比任何一个变量的信息都要多 H(x,y) >= H(x) 并有 H(X,Y) = H(X) + H(Y|X)
互信息:两个集合的相关性 I(x,y)= H。。。。。我也不太理解H(x) - H(x|y)的意义解释。应该是这样,X的熵在知识Y确定条件下的缩减。
互不是共同,是交互和二者的意思。缩减量越大,二者阅相关。
相对熵(KLD):。。。。啥啊
8 查询结果和网页的相关性
--百度和goole用,NLP我就不写了,基本思想是计算TF*IDF,IDF为权重
9
如果s是由顺序词w1 w2 ... wn组成,那么s是一个有意义的句子的可能性(出现在正是文本中的可能性),可以表示为P(2).
那么P(s) = P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1)
每个词以前面的x个词出现为条件,马尔可夫假设x=1
2 中文分词
字典法:从左向右扫描字符串,如果字典里有,就标注出来,遇到复合词,就选最长匹配。不认识的子字符串就分成单个词。
王晓龙理论:句子应该分成数量最少的词串 (歧义性不能识别)
郭进:S的分词方法有a1a2a2,b1b2b3,c1c2c3
P(a1,a2,a3) > P(b1,b2,b3)
P(a1,a2,a3) > P(c1,c2,c3)
则第一个分类是最好的。但是 穷举实现非常困难。方法是利用维特比快速实现(还不了解怎么实现)
3 HMM
如果输入是中文s1 s2 s3 输出是英文o1o2o3
则倒推的概率p(s2,s2,s3|01,o2,o3) = p(o1,o2,o3| s1,s2,s3)*p(s1,s2,3)
si 只由si-1决定
oi只由si决定,即p(o1,o2,o3|s1,s2,s3)=p(o1|s1)p(o2|s2)p(o3|s3).
然后找出最大的那组s1s2s3.
4 度量信息和熵
--》可以参考MIT的公开和信息与熵
联合熵(joint
entropy)
如果X, Y 是一对离散型随机变量X, Y ~ p(x, y),X, Y 的联合熵H(X, Y) 为:
(X,Y)被视为一个事件
H(X,Y)=-Σx∈Ω Σ y∈Ψp(x,y)log2p(x,y)
联合熵实际上就是描述一对随机变量平均所需要的信息量
5 布尔代数和搜索引擎
关键词1在每个网页中出现,可以表示为向量001000001011100000000,关键词2的向量是01100101000000000000
二者与一下就是满足两个关键词的网页
6爬虫,没看
7 信息论在语言模型中的应用
语言模型是根据上下文预测当前文本的模型,模型好坏又信息熵衡量。
模型复杂度:
每个位置填入词的可能行有多少种。0元996 2元60,2元中考虑前后搭配概率则为20
这里面用到信息论的内容,贴过来的:
理解如下
条件熵:是X熵信息的确定情况下,Y信息的不确定的度量 H(Y|X) = -Xigama(X)Xigma(Y) P(y|x)logP(y|x)
联合熵:多变量一起带来的信息量,他比任何一个变量的信息都要多 H(x,y) >= H(x) 并有 H(X,Y) = H(X) + H(Y|X)
互信息:两个集合的相关性 I(x,y)= H。。。。。我也不太理解H(x) - H(x|y)的意义解释。应该是这样,X的熵在知识Y确定条件下的缩减。
互不是共同,是交互和二者的意思。缩减量越大,二者阅相关。
相对熵(KLD):。。。。啥啊
8 查询结果和网页的相关性
--百度和goole用,NLP我就不写了,基本思想是计算TF*IDF,IDF为权重
9
相关文章推荐
- javaEE api .chm
- 位运算
- Hyper-V增强会话模式 推荐
- access "update语句的语法错误"解决
- 学习英语电台mms地址
- 对hibernate运行原理的总结
- jquery事件绑定详解
- MFC中ShellManager的使用
- IOS开发 textView输入文字时键盘切换为中文输入法后,第一个输入的字母变成英文
- Kerberos简介
- 编译安装httpd2.4
- qt中字符串转换
- ctags对部分目录生成tags
- 一个简单学生信息管理系统的编程
- 配置spring-mvc + simple-spring-memcached
- C++类的静态数据成员和普通数据成员的区别
- sql树形查询
- html5使用视图块(view blocks)
- usaco 2.1
- 交换两个变量的值(一种不那么经典的方法)