您的位置：首页 > 其它

机器学习(一)初识机器学习

2016-11-11 19:03 295 查看

（1）初识机器学习：

一.概念：将规律用于对未来不确定场景的决策。

规律：从历史数据中总结

通常来自数据分析师 ———让机器代替

从数据中寻找规律

规律—自动生成————>决策

历史几十年，，，，有大数据引出，，概率论与数理统计（基石）统计学（受限于计算能力限制，低端计算机）

统计学：抽样调查，（有缺陷）————>验证

抽样—>描述统计—>假设检验（统计推断）

发展到，对全部数据进行处理

分析气温：收集历史数据，通过可视化展示，局部上下波动，总体上升

图形——得到——>函数（寻找模型）使用与一维

多维，上百维，构建不出图形，不能发现规律，，纯靠数学运算

二.机器学习发展的动力

1.用数据代替专家（主观经验），定义规则——>if/else 业务逻辑，

2.经济。数据变现

3.业务系统发展的历史

基于专家经验（1）

基于统计———分纬度统计（2）

机器学习————在线学习（3）

运营，产品，专家交流经验———>程序员——>if/else（1）

数据分析==技术报表（olvp）——>业务规则（2）

离线机器学习（多），跑定时任务，生成模型 —— 发展方向 ———>实时推荐（在线学习）（3）

四。机器学习的典型应用

1.购物篮分析（数据变成钱）

啤酒+尿片（沃尔玛数据分析人员发现）算法：关联规则（典型数据挖掘算法，非机器学习算法）

2.分用户精准营销

中国移动：全球通（商务），动感地带（学生），神州行（务工人员）

机器学习：

算法：聚类（典型机器学习算法）

3.垃圾邮件识别

算法：朴素贝叶斯（机器学习算法）

4.信用卡欺诈

风险识别：还款能力，消费能力

算法：决策树（机器学习算法）

5.互联网广告，搜索引擎

算法：ctr预估（用户点击率预估：线性逻辑回归）

6.推荐系统（猜你喜欢）

算法：协同过滤（与第一条类似）算法不同，解决同类型问题，提升销量

7.领域：自然语言处理

前景广泛（门槛较机器学习更高）

情感分析（积极，消极），实体识别（文章中：人名地名时间）

更多其他领域

8.深度学习：图像识别

（很火）吴文达教授主要从事这方面

更多：语音识别，个性化医疗，情感分析，人脸识别，自动驾驶，智慧机器人，私人虚拟助理，手势控制，视频内容自动识别，实时翻译。。。。

工业届热点

（2）机器学习与传统数据分析的区别

1.数据特点: 交易数据（与￥有关）——VS—— 行为数据（行为历史）

数据特点


交易数据	行为数据
与￥有关	行为历史
少量数据	海量数据
一致性高	不关注精准一致性
sql	no sql

*no sql 数据库：只能处理行为性数据，保证吞吐量，一致性打折扣

2.解决的业务问题不一样


数据分析	机器学习
历史，报告过去的事情	未来，预测未来的实行

3.技术手段不同

数据分析：人的经验，用户驱动（olap）交互式分析，受限于人，维度，属性数目有限，技术成熟，落伍

机器学习：算法，数据驱动，大量维度，属性（上亿规模）发展阶段，部分成熟，流行（推荐，点击预估）

3.参与者不同，服务对象不同

数据分析：数据分析师，目标用户：公司高层

机器学习：数据+算法做分类，算法差别不大，关键是数据质量目标用户：个体用户

（3）机器学习常见算法分类

算法分类（1）：

有监督学习：（有y）分类算法（是否为垃圾邮件，打标签），回归算法

无监督学习：（没y）聚类算法：分成几累，之前并不知道

半监督学习：（强化学习）小孩学走路

算法分类（2）：分类与回归：

聚类：

标注：像分类，一句话，给每个元素打标签，主谓宾

算法分类（3）：(important)

生成模型：（陪审团）属于各个类的概率（%20A类， %40B类， 20%C类。。。）模棱两可

判别模型：（法官）直接给函数，返回结果，属于哪一类，！武断

主要区别：训练数据模型的方法

SVM算法面试必考

分类：C4.5

关联分析 fp-growth：关联算法（韩嘉伟）两边扫描，平凡相机挖掘

统计学习 EM（算法框架）

PageRank 谷歌

AdaBoost 人脸识别，决策树改进版

NAVIE BAYES 朴素贝叶斯

常用成熟算法：

FP-Growth

逻辑回归

RF.GBDT

推荐算法

LDA（文本，自然语言）

Word2Vector（谷歌，文本挖掘）

HMM,CRF（条件随机场，自然语言，文本挖掘）

深度学习(各种识别)

（4）机器学习解决问题的框架

（人工智能解决的问题相对单纯）

确定目标：

业务需求

数据

特征工程（数据预处理，清晰，整合，提取特征），繁琐，复杂

训练模型：

定义模型

定义损失函数**：通常情况下没有精确解（重要），相似，差异度

优化算法：求函数极小值的优化算法，（随机梯度下降，种种）

模型评估：

交叉验证（主流）：评估指标，准确率，方差，曲线

效果评估

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习

相关文章推荐

新的分享

章节导航