您的位置:首页 > 编程语言

《机器学习:算法原理与编程实践》的读书笔记:SMO部分最难,大部分代码基于Scikit-Learn,决策树其实用处不大

2015-12-12 17:10 906 查看


机器学习:算法原理与编程实践




目录

 [隐藏
1 机器学习的基础
2 中文文本分类
3 决策树的发展
4 推荐系统原理
5 梯度寻优
6 神经网络初步
7 预测的技术与哲学
8 万能分类器:SVM
9 人脸识别中的机器学习
10 认知计算与深度学习
11 概率图模型与词性标注


机器学习的基础[编辑]

p12 矩阵的3个用途:(1)解线性方程组;(2)利用二次型,将线性不可分的数据集映射到高维可分,如SVM;(3)变换,维度约简,如PCA
NumPy
Linalg

p21 相似度:范数(距离)
多元统计:联合分布/边缘分布?
特征之间的相关性
(样本向量与均值的)马氏(Mahalanobis)距离 --> 若协方差矩阵是I,则变成欧氏距离

特征值与特征向量:分解为旋转和某方向上的伸缩?
数据归一化:略


中文文本分类[编辑]

文本挖掘的7个领域:IR、聚类、分类、Web挖掘、信息抽取、NLP、概念提取
文本分类的流程:预处理、分词、统计词频,生成词向量空间(全局的?)、权重策略(TF-IDF)、分类、评价
太学术了,没办法增量运算

p62 中文分词:基于概率图模型的条件随机场(CRF),Lafferty 2001
jieba分词?
Scikit-Learn库简介
召回率(recall)与准确率(precision),F-score

朴素Bayes
kNN


决策树的发展[编辑]

最优特征子函数:ID3是信息增益、C4.5是信息增益率、CART是节点方差
信息熵测度*
vs 关系数据库中索引的‘区分度’概念?

ID3
缺点:倾向于选择特征值个数多的特征;过拟合问题

C4.5
Scikit-Learn与回归树(CART)
CART使用最小剩余方差来判定回归树的最优化分(即期望划分之后的子树与样本点的误差方差最小),然后对子模型数据进行线性回归(模型树
避免过拟合:剪枝
E(子树误判次数) - Var(子树误判次数) > E(叶子误判次数)


推荐系统原理[编辑]

协同过滤
User CF
Item CF

kMeans
聚类的改进:二分kMeans
首先将整体作为一个簇,选择能够最大限度降低聚类代价(误差平方和)的簇划分为二,直到>=k为止

SVD:分解任意N*M矩阵
奇异值 vs 特征值


梯度寻优[编辑]

最优化与计算复杂性
凸集分离定理(超平面)

Logistic梯度下降
Logistic把(-∞,+∞)映射到(0,1)
随机梯度下降(SGD):随机样本抽取 + 动态步长取值


神经网络初步[编辑]

BP
隐含层/传递函数:f(net) = 1/(1+exp(-net)) ——这不就是前面的Logistic函数嘛,为了归一化?
(误差反馈)反向传播:略
BP设计
隐含层数

问题:网络设计复杂、收敛慢、容易陷入局部最优(=> 动量因子)

SOM
只有2层,输入层与输出层之间1:N连接
学习率 ?
聚类半径

Boltzmann机*
模拟退火应用到BP?
Boltzmann/Gibbs分布
统计力学中的表述形式:F(state)∝exp(-E/kT)

降温策略


预测的技术与哲学[编辑]

线性系统的预测
最小二乘
正规方程组法

RBF
1985,Powell提出多变量插值的RBF法(拟合非线性函数,无须增加高次项)
前馈网络,无BP的误差反馈权值更新,学习速度比BP快得多,并且能够避免局部极小(层与层之间是N:N全连接???)

岭回归
随机变量存在多重共线性?
A(k) = (X'X + kI)^-1 X' Y, 这里X'是X的转置
** 岭迹分析
k值的判定:最小二乘是否合理?

*预测的哲学(周易八卦阴阳两仪的部分感觉作者在扯淡)
周期3意味着混沌?
Li-Yorke定理
求导后的Logistic映射:X_n+1 = k * X_n * (1-X_n)
Logistic中的吸引子
三生万物 p259


万能分类器:SVM[编辑]

数学推导
* Vapnik和Chervonenkis的VC维
结构风险最优(SRM原则)
SVM的最佳分类超平面(这个感觉其实没多大用?)
SVM求解过程:拉格朗日乘子法 p275-
*** KKT条件与对偶变换
KKT:指在满足Slater条件下(保证鞍点存在),一个非线性规划有最优解的充要条件

映射到高维空间
增加维度:可用x_i和x_j的乘积表示...
降低计算开销:核函数法
RBF的Gauss核

*** 离群点(噪声?)的松弛变量

*** SMO


人脸识别中的机器学习[编辑]

人脸检测
Haar级联
LBP级联

AdaBoost
人脸识别
PCA原理
特征脸


认知计算与深度学习[编辑]

DL已经发展为一套人工认知算法体系:多层感知器、CNN(LeNet)、RNN、LSTM网络、稀疏编码器、堆叠的自动编码器、深度置信网络、混合Monte Carlo抽样、压缩的自动编码器、RNN-RBM网络
多层感知器
Softmax回归类*
** 正则化方法:
提前终止
L1/L2

*** 卷积神经网络(CNN)
Theano与GPU计算


概率图模型与词性标注[编辑]

Markov过程
Bayes网
HMM
词性标注系统
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息