您的位置:首页 > 其它

Data-Driven creating a data culture阅读笔记

2015-04-20 00:00 148 查看
摘要: 最近对数据科学比较感兴趣,找到一本入门介绍的书,简短易懂,可大致介绍了以下几个问题:
1. 什么是数据科学家
2. 数据驱动的组织结构是怎样的
3. 一个数据驱动的组织如何可以做的更好
4. 一些获取数据的工具
5. 挑战
PS: 硕士水平数据科学学习计划列表:http://datasciencemasters.org/

数据科学家究竟是怎样的存在。
首先,数据科学家并不是近几年新晋的职位,而是一种时代发展对数据的要求变多从而综合能力的一种存在。数据科学家需要综合多种能力,包括:数学,基本的统计和线性代数。这些课程在多数的本科教育中均有教授。
其次,数据科学家需要计算能力,包括编程和体系结构设计。如果数据科学家不会编程,不能够运用工具和技术获取数据并进行处理,那么只能够成为第二等的数据科学家。
最后,数据科学家还需要掌握交流能力。数据科学家不完全生活在纯数字的世界中,他们需要懂得如何整合这些数据,并利用这些数据结果创造更有价值的信息。
另外,除了以上这些必备技能,数据科学家还需要学会如何提出最恰当的问题。这个技能很难衡量,但是,对于数据科学家是很有必要的。



一个数据驱动的组织是如何做的更好的。
区分一个组织是不是数据驱动最重要的一点是:他们如何提出假说并且解决问题的。数据驱动的组织往往符合以下的科学方法:

从数据开始

提出数据假想,进而找出这些数据可以回答的问题

规划你的问题

利用当前的数据来更好的理解你的问题是否是最合适的问题。如果不是,循环上述步骤知道你找到一个可以测试的假说。

创建可以测试或者实验的框架

分析数据结果,以深度挖掘问题

之前有提到,如何学会问最恰当的问题,对于数据科学家非常重要,下面就举几个关于如何问问题的思路:

What is the question we're asking?

How do we know when we’ve won?

Assuming we solve this problem perfectly, what will we build first?

If everyone in the world uses this, what is the impact?

What’s the most evil thing that can be done with this?

接下来我们给出一些对于这些数据应该问的问题:

What are the short-term and long-term goals for data?

Who are the supporters and who are the opponents?

Where are conflicts likely to arise?

What systems are needed to make the data scientists successful?

What are the costs and time horizons required to implement those systems?

由于数据科学家非常关心数据以及数据的变化趋势,因此,很多数据科学家使用Dash Board来追踪和观察数据,关于Dash Board,有几点建议:

data vomit:不要产生数据呕吐现象,选择最合适且需要的数据展示,而不是一味的想要通过dash board展示更多的东西,哪怕此时仅仅想增加"just one more thing"

Time Dependency:只有当你了解数据发生变化时,你需要做什么的时候,再将这些数据放到dash board上面。同样的,将数据展示在允许操作的图表中。并且通过创建多个而不是一个图表来反映不同的时间范畴。

Value:是你管理dashboard,而不是让dashboard上面的数据管理你!要经常回顾这些数据,并反思他们是否依旧能够为你提供价值。如果不能,及时修正或者去除这些无用的数据。

Visual:让你的数据看起来更漂亮!因为更漂亮的数据使得你能够更想观察它:)

Fatigue:最后,小心“报警疲劳”。我们经常希望在某些数据发生变化时,向我们发送警报,但是如果警报太多,你就会产生报警疲劳,并且会分散你的注意力。

根据上面几点建议,当数据被展示时,我们通常会问4个问题:

What do you want users to take away? 即你希望用户通过查看dashboard获取哪些信息,这些信息是好信息还是坏信息

What action should you take? 当呈现一个数据结果时,询问自己你希望你的听众去做些什么?你可以不将这些行为反应在dashboard上面,但是需要在data meeting中向你的用户反馈出,当出现某些变化时,他们需要采取哪些相应的行为。

How do you want the viewer to feel? 根据dashboard不同的作用,可以选择不同的设计。譬如,如果目的是使用户激动,请使用绿色。如果是使用户保持中立的态度,使用黑色或者蓝色。如果希望传递紧急的信息或者关注的信息,请使用黄色或者红色。

Finally, is the data display adding value regularly? 去除无用的数据能够使得dashboard更加简洁有效可操作。

讲了这么多,需要注意一点:不要盲目的跟随数据信息。数据驱动并不意味着忽略你的直觉,盲目的根据数据进行操作。

关于工具
数据科学家经常会被问到平时使用的工具,或者可能用到的工具。其实,并没有说用哪个工具一定会被另一种好,但是,好的工具有一些公共的特性:

最好的工具都是强力的。强力的工具支持非传统和强有力的分析技术。

最好的工具是易于学习和使用的。由于某些工具需要编程语言,你可能在学习中需要参考教程和参与社区问答。

最好的工具支持协作。好的工具应该使得协作分析变得更加容易,并且使得数据工作可以重复产生。

最好的工具是社区的最爱。一个在社区中流行并被大部分人看好的工具肯定是很适合的工具。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐