您的位置:首页 > 其它

七月在线 机器学习题库 知识点整理0226

2018-02-26 10:10 281 查看
发现了一个很不错的机器学习网站哦http://www.julyedu.com/
这学期准备找实习了,所以想巩固一下自己的理论基础。用博客的方式记录下来,方便以后查阅复习。

1生成模型generative model和判别模型 discriminative model
已知输入变量x,生成模型通过对观测值和标注数据计算联合概率分布P(x,y)来达到判定估算y的目的。判别模型通过求解条件概率分布P(y|x)或者直接计算y的值来预测y。
常见的判别模型有线性回归(Linear Regression),逻辑回归(Logistic Regression),支持向量机(SVM), 传统神经网络(Traditional Neural Networks),线性判别分析(Linear Discriminative Analysis),条件随机场(Conditional Random Field);常见的生成模型有朴素贝叶斯(Naive Bayes), 隐马尔科夫模型(HMM),贝叶斯网络(Bayesian Networks)和隐含狄利克雷分布(Latent Dirichlet Allocation)。

2中文分词的基本方法中文分词的基本方法可以分为基于语法规则的方法、基于词典的方法和基于统计的方法。
基于语法规则的分词法基本思想是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂, 基于语法和规则的分词法所能达到的精确度远远还不能令人满意, 目前这种分词系统应用较少。
在基于词典的方法中,可以进一步分为最大匹配法,最大概率法,最短路径法等。最大匹配法指的是按照一定顺序选取字符串中的若干个字当做一个词,去词典中查找。根据扫描方式可细分为:正向最大匹配,反向最大匹配,双向最大匹配,最小切分。最大概率法指的是一个待切分的汉字串可能包含多种分词结果,将其中概率最大的那个作为该字串的分词结果。最短路径法指的是在词图上选择一条词数最少的路径。
基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。常用的方法有HMM(隐马尔科夫模型),MAXENT(最大熵模型),MEMM(最大熵隐马尔科夫模型),CRF(条件随机场)。


3CRF模型、HMM模型和MEMM模型的比较分析
参考https://www.cnblogs.com/hellochennan/p/6624509.html

4维特比算法

5ID3算法ID3算法的核心思想是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。ID3算法的局限是它的属性只能取离散值,为了使决策树能应用于连续属性值情况,可以使用ID3的一个扩展算法C4.5算法。BC选项都是ID3算法的特点。ID3算法生成的决策树是一棵多叉树,分支的数量取决于分裂属性有多少个不同的取值。
6过拟合问题机器学习中发生过拟合的主要原因有:(1)使用过于复杂的模型;(2)数据噪声较大;(3)训练数据少。
由此对应的降低过拟合的方法有:(1)简化模型假设,或者使用惩罚项限制模型复杂度;(2)进行数据清洗,减少噪声;(3)收集更多训练数据。

[b]
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习基础