您的位置:首页 > 其它

机器学习(一)初识机器学习

2016-11-11 19:03 295 查看

(1)初识机器学习:

一.概念:将 规律 用于对未来 不确定 场景的决策。

规律:从历史数据中总结

通常 来自数据分析师 ———让机器代替

从数据中寻找规律

规律—自动生成————>决策

历史几十年,,,,有大数据引出,,概率论与数理统计(基石)统计学(受限于计算能力限制,低端计算机)

统计学:抽样调查,(有缺陷)————>验证

抽样—>描述统计—>假设检验(统计推断)

发展到,对全部数据进行处理

分析气温:收集历史数据,通过可视化展示,局部上下波动,总体上升

图形——得到——>函数(寻找模型)使用与一维

多维,上百维,构建不出图形,不能发现规律,,纯靠数学运算

二.机器学习发展的动力

1.用数据代替专家(主观经验),定义规则——>if/else 业务逻辑,

2.经济。数据变现

3.业务系统发展的历史

基于专家经验(1)

基于统计———分纬度统计(2)

机器学习————在线学习(3)

运营,产品,专家 交流经验———>程序员——>if/else(1)

数据分析==技术报表(olvp)——>业务规则(2)

离线机器学习(多),跑定时任务,生成模型 —— 发展方向 ———>实时推荐(在线学习)(3)

四。机器学习的典型应用

1.购物篮分析(数据变成钱)

啤酒+尿片(沃尔玛数据分析人员发现)算法:关联规则(典型数据挖掘算法,非机器学习算法)

2.分用户精准营销

中国移动:全球通(商务),动感地带(学生),神州行(务工人员)

机器学习:

算法:聚类(典型机器学习算法)

3.垃圾邮件识别

算法:朴素贝叶斯(机器学习算法)

4.信用卡欺诈

风险识别:还款能力,消费能力

算法:决策树(机器学习算法)

5.互联网广告,搜索引擎

算法:ctr预估(用户点击率预估:线性逻辑回归)

6.推荐系统(猜你喜欢)

算法:协同过滤(与第一条类似)算法不同,解决同类型问题,提升销量

7.领域:自然语言处理

前景广泛(门槛较机器学习更高)

情感分析(积极,消极),实体识别(文章中:人名地名时间)

更多其他领域

8.深度学习:图像识别

(很火)吴文达教授主要从事这方面

更多:语音识别,个性化医疗,情感分析,人脸识别,自动驾驶,智慧机器人,私人虚拟助理,手势控制,视频内容自动识别,实时翻译。。。。

工业届热点

(2)机器学习与传统数据分析的区别

1.数据特点: 交易数据(与¥有关)——VS—— 行为数据(行为历史)

数据特点

交易数据行为数据
与¥有关行为历史
少量数据海量数据
一致性高不关注精准一致性
sqlno sql
*no sql 数据库:只能处理行为性数据,保证吞吐量,一致性打折扣

2.解决的业务问题不一样

数据分析机器学习
历史,报告过去的事情未来,预测未来的实行

3.技术手段不同

数据分析:人的经验,用户驱动(olap)交互式分析,受限于人,维度,属性数目有限,技术成熟,落伍

机器学习:算法,数据驱动,大量维度,属性(上亿规模) 发展阶段,部分成熟,流行(推荐,点击预估)

3.参与者不同,服务对象不同

数据分析:数据分析师,目标用户:公司高层

机器学习:数据+算法 做分类,算法差别不大,关键是数据质量 目标用户:个体用户

(3)机器学习常见算法分类

算法分类(1):

有监督学习:(有y)分类算法(是否为垃圾邮件,打标签),回归算法

无监督学习:(没y)聚类算法:分成几累,之前并不知道

半监督学习:(强化学习)小孩学走路

算法分类(2): 分类与回归:

聚类:

标注:像分类,一句话,给每个元素打标签,主谓宾

算法分类(3):(important)

生成模型:(陪审团)属于各个类的概率(%20A类, %40B类, 20%C类。。。)模棱两可

判别模型:(法官)直接给函数,返回结果,属于哪一类,!武断

主要区别:训练数据模型的方法

SVM算法面试必考

分类:C4.5

关联分析 fp-growth:关联算法(韩嘉伟)两边扫描,平凡相机挖掘

统计学习 EM(算法框架)

PageRank 谷歌

AdaBoost 人脸识别,决策树改进版

NAVIE BAYES 朴素贝叶斯

常用成熟算法:

FP-Growth

逻辑回归

RF.GBDT

推荐算法

LDA(文本,自然语言)

Word2Vector(谷歌,文本挖掘)

HMM,CRF(条件随机场,自然语言,文本挖掘)

深度学习(各种识别)

(4)机器学习解决问题的框架

(人工智能解决的问题相对单纯)

确定目标:

业务需求

数据

特征工程(数据预处理,清晰,整合,提取特征),繁琐,复杂

训练模型:

定义模型

定义损失函数**:通常情况下没有精确解(重要),相似,差异度

优化算法:求函数极小值的优化算法,(随机梯度下降,种种)

模型评估:

交叉验证(主流):评估指标,准确率,方差,曲线

效果评估
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习