大数据分析师的卓越之道
2016-05-22 11:58
218 查看
大数据时代的数据分析区别于普通的数据分析,这是由大数据的特性所决定的,为了适应大数据的时代的发展,数据分析师也应该转变一些分析的思想和观念。
大数据时代的要求:
数据需要流动起来才有价值:
大数据典型的场景:
当数据量、基础设施以及数据价值逐渐变大时,对知识挖掘和发现的方法也需要不断的改进。
在量子论的世界里,一切都是不确定的,薛定谔的猫和海森堡的测不准准则都告诉我们这是个不确定的世界。大数据时代,尽管大数据要求要全集,不要部分;要混杂,不要精确;要相关不要因果,但大数据也还是测不准的。在硬件基础设施不断升级的过程中,大数据分析师也要与时俱进,跟上时代的步伐。
对大数据分析师的要求:
从原有的数据分析过程来看大数据时代的分析:
假设:
原来的分析步骤是先设定一个假设,再去获取相关的数据,在大数据时代,我们需要先获得数据,在对数据进行一定发掘后从相关性中获取假设,再进一步的反过来验证。从若干相关性中获取假设,需要一定的先验知识,这些先验知识来源广泛的阅读、与人交流的碰撞,以及相应的业务知识。
收集:
大数据时代要求获取数据的全集,并且这些数据中包含噪音是必然的,数据的类型也多样的,包括结构化、半结构化以及非结构化。原来的企业数据仓库(Enterprise Data WareHouse)也逐渐变成了企业数据中心(Enterprise Data Hub/Lake ),原来是设定一定模式后再去获取相应结构的数据,现在是先有数据并且这些数据也是在实时的变化,因此也要求系统可以实现数据的结构变化调整,从一种形式变成另一种形式。
数据也是有一定的生命周期,并不是说所有的数据都有很大的价值,就像学习的知识一样,在72小时内不去温习的话,效果就不那么好了。数据也是这样,刚产生的数据价值最大。同时,数据也需要交换和流动,只有与其他人分享数据,数据才升值。
数据准备:
大数据时代数据量很重要,但数据质量却是重中之重。
分析:
大数据分析和挖掘涉及到的知识面广,包括数据库、机器学习、统计、kDD、AI、pattern Recegnition、Nurocomputing等,数据分析主要涉及两方面的工作:数据查询和分析;复杂的线性代数。大数据也越来越拥抱云,很多工具都集成到云环境中去了,甚至出现了ML PipeLine 机器学习流水线的概念。数据分析师需要具备一项或几项工具装备如SAS、R、SQL、Python等。但究竟像刺猬一样‘一招鲜,吃遍天’,还是像狐狸一样‘一把钥匙开一把锁’?在大数据时代最好还是懂得各项技术结合使用。
模型的复杂度与问题匹配:
奥卡姆剃刀原理(简单有效原理)
数据不可名状的功效:
简单的模型+大数据>复杂的模型+小数据?那是不是简单的模型就一定有效?
首先得看你怎么定义‘简单’,是公式简单?解释简单?
能解释和利用数据的最简单模型
参数模型、线性模型、判断型模型适合于小数据,非参数型、非线性模型、生产性模型适合于大数据。但这并不说明大数据不能使用参数模型、线性模型、判断型模型。对传统模型,可能无法感知长尾上的信号,对大数据适合的模型计算复杂度一般都很高。有时候可以考虑模型的混合尤其是在数据竞赛中,但在实际应用中一般很少用到。大数据时代需要交互式的数据查询,这就需要很快的处理速度。
人的角色:Human Machine Intelligence
人在数据分析中地位不可完全替代,人与机器的搭配才能获得最佳性能:人人合作、人机协作、外包、众包、人类计算、协作。
数据科学是一门艺术
STEM:Science Technology Engieering Mathematics
STEAM:Science Technology Engieering Art Mathematics
不仅是视觉上的艺术,也是语言的艺术,要有讲好故事的能力(drama,detail,dialog)
"Stroy telling and ideas worth spreading"
最后再完整的看看完整的大数据分析流程:
DataAnswer,玩数据,我们是认真的!DataAnswer
大数据时代的要求:
数据需要流动起来才有价值:
大数据典型的场景:
当数据量、基础设施以及数据价值逐渐变大时,对知识挖掘和发现的方法也需要不断的改进。
在量子论的世界里,一切都是不确定的,薛定谔的猫和海森堡的测不准准则都告诉我们这是个不确定的世界。大数据时代,尽管大数据要求要全集,不要部分;要混杂,不要精确;要相关不要因果,但大数据也还是测不准的。在硬件基础设施不断升级的过程中,大数据分析师也要与时俱进,跟上时代的步伐。
对大数据分析师的要求:
从原有的数据分析过程来看大数据时代的分析:
假设:
原来的分析步骤是先设定一个假设,再去获取相关的数据,在大数据时代,我们需要先获得数据,在对数据进行一定发掘后从相关性中获取假设,再进一步的反过来验证。从若干相关性中获取假设,需要一定的先验知识,这些先验知识来源广泛的阅读、与人交流的碰撞,以及相应的业务知识。
收集:
大数据时代要求获取数据的全集,并且这些数据中包含噪音是必然的,数据的类型也多样的,包括结构化、半结构化以及非结构化。原来的企业数据仓库(Enterprise Data WareHouse)也逐渐变成了企业数据中心(Enterprise Data Hub/Lake ),原来是设定一定模式后再去获取相应结构的数据,现在是先有数据并且这些数据也是在实时的变化,因此也要求系统可以实现数据的结构变化调整,从一种形式变成另一种形式。
数据也是有一定的生命周期,并不是说所有的数据都有很大的价值,就像学习的知识一样,在72小时内不去温习的话,效果就不那么好了。数据也是这样,刚产生的数据价值最大。同时,数据也需要交换和流动,只有与其他人分享数据,数据才升值。
数据准备:
大数据时代数据量很重要,但数据质量却是重中之重。
分析:
大数据分析和挖掘涉及到的知识面广,包括数据库、机器学习、统计、kDD、AI、pattern Recegnition、Nurocomputing等,数据分析主要涉及两方面的工作:数据查询和分析;复杂的线性代数。大数据也越来越拥抱云,很多工具都集成到云环境中去了,甚至出现了ML PipeLine 机器学习流水线的概念。数据分析师需要具备一项或几项工具装备如SAS、R、SQL、Python等。但究竟像刺猬一样‘一招鲜,吃遍天’,还是像狐狸一样‘一把钥匙开一把锁’?在大数据时代最好还是懂得各项技术结合使用。
模型的复杂度与问题匹配:
奥卡姆剃刀原理(简单有效原理)
数据不可名状的功效:
简单的模型+大数据>复杂的模型+小数据?那是不是简单的模型就一定有效?
首先得看你怎么定义‘简单’,是公式简单?解释简单?
能解释和利用数据的最简单模型
参数模型、线性模型、判断型模型适合于小数据,非参数型、非线性模型、生产性模型适合于大数据。但这并不说明大数据不能使用参数模型、线性模型、判断型模型。对传统模型,可能无法感知长尾上的信号,对大数据适合的模型计算复杂度一般都很高。有时候可以考虑模型的混合尤其是在数据竞赛中,但在实际应用中一般很少用到。大数据时代需要交互式的数据查询,这就需要很快的处理速度。
人的角色:Human Machine Intelligence
人在数据分析中地位不可完全替代,人与机器的搭配才能获得最佳性能:人人合作、人机协作、外包、众包、人类计算、协作。
数据科学是一门艺术
STEM:Science Technology Engieering Mathematics
STEAM:Science Technology Engieering Art Mathematics
不仅是视觉上的艺术,也是语言的艺术,要有讲好故事的能力(drama,detail,dialog)
"Stroy telling and ideas worth spreading"
最后再完整的看看完整的大数据分析流程:
DataAnswer,玩数据,我们是认真的!DataAnswer
相关文章推荐
- 谷歌约束控件(ConstraintLayout)扁平化布局入门
- HDU 5029 Relief grain 树链剖分 好题
- Contiki协议栈Rime:引子introduction
- Win10 IoT C#开发 3 - UART 串口通信
- toString() unavailable - no suspended threads
- Airbnb 分享经济步步紧逼:传统酒店老板要和出租车司机同病相怜?
- Contiki协议栈学习计划
- 【NOIP2013模拟】Rainbow的信号
- DT大数据梦工厂Spark定制班笔记(007)
- 大数据学习笔记·城市计算(3)
- DT大数据梦工厂Spark定制班笔记(006)
- Block如何避免self retain
- LeetCode 70. Climbing Stairs(爬楼梯)
- 大数据学习笔记·城市计算(2)
- DT大数据梦工厂Spark定制班笔记(005)
- 3881: [Coci2015]Divljak fail树+树链的并
- 人工智能:美女机器人能和男人产生感情吗?
- Spark兼容Hive入门解析
- ArrayList<E>.<init> line: not available
- 【杭电oj】2057 - A + B Again(16进制输入输出)