您的位置:首页 > 大数据

《正在到来的数据革命:大数据》阅读笔记

2015-02-28 01:57 246 查看
1.一个真正的信息社会,首先是一个公民社会。——作者题记

2
你们每个人,都可以拿了毕业证、走下这个讲台,然后去追求锦衣玉食等等这个金钱社会视为理所当然的东西。你可以选择只关心自己的怒哀乐,把你的生活和国家的发展割裂开来。但我不希望你这样做。这不仅仅是因为你对那些没有你幸运的人负有责任,尽管你确实负有责任;也不仅仅是因为你对帮助你到今天的人欠有债,尽管你确实欠下了债。这是因为:你对你自己负有使命和责任。这是因为:我们个人的命运依赖于群体的命运。这是因为:如果你仅仅考虑你自己、满足眼前的需要,这是一种贫乏。这是因为:只有你把你自己的战车和其他一些更伟大的东西绑定到一起的时候,你才能发现你真正的能量,才能发现你为美国这个国家继续书写历史时所能扮演的角色。
一一-奥巴马,在卫斯理大学毕业典礼上的演讲, 2008年5月 27日

3.“阳光是最好的防腐剂。"——路易斯·布兰代斯
(Louis Brandeis) 

4.当我们有所怀疑的时候,公开是第一选择

5.一个自由的新闻行业是居于政府和人民之间的伟大解释者。你,如果同意给它加上桂桔,无异于给自己戴上脚镣。一一-乔治·萨瑟兰(
1862-1942 ),美国最高法院大法官, 1936年

6."公共事务,就是大家的事。人民有权利知道这些事。如果没有知情权,即使在一个民主制度下,人民所能做的也不过仅仅就是投票改选他们的国王罢了。"
——克劳斯

7.那美好的仗我已经打过,当跑的路我已经跑尽,所信的道我已经守住。从此以后,有公义的冠冕为我存留。
一一保罗, <<圣经·提摩太后书》

8.秘密越多,腐败越多。

9.历史的教训很少被演员们自己吸取。
一一一詹姆斯·加菲尔德,第 20 任美国总统

10.创新无止境。

11.一个好的数据结构和一个糟糕的代码,比一个糟糕的数据结构和好的代码要强多了。
一一埃里克·雷蒙 美国软件开源运动的领导者, 1999年

12.数据的生命力,甚至比程序更持久。程序可以不停地升级、换代甚至退出使用,但保存数据的数据库却会继续存在,其价值很可能与日俱增、历久弥新。

13."数据是宝贵的,它的生命力,比收集它的软件系统还要持久。"
——世界万维网之父蒂姆·伯纳斯一李

14.对于软件开发而言,数据库的设计甚至比程序的设计还要重要。

15.普适计算:计算机本身将从人们的视线中消失

16.最高深的技术是那些令人无法觉察的技术,这些技术不停地把它们自己编织进日常生活,直到你无从发现为止。 一一-马克·韦泽,普适计算之父,
1991年

17.万事万物,凡存在,皆联网,凡联网,皆计算。

18.从政治学的意义上来说,组织起来的少数就是政治上的多数。
一-杰斯·杰克逊,美国非裔民权活动家

19.奥尔森认为,每个人都是经济理性人,也就是说,每个人做事,都会首先考虑自己的利益得失。大家一起行动,一旦行动成功,所有的集体成员都能从中受益,包括那些没有参与行动的、偷懒的、取巧的、旁观的、冷嘲热讽的,甚至使坏的,都将从中获益,而行动的真正参与者、领导者,却可能;要付出不同一般的代价。每个人一计算,都发现自己的最佳策略是"坐等是"围观"。也就是说,明知现实不合理,自己也不想出力,都希望别人出头、自己搭车。这种集体都想、"搭便车"的结果,就是公共利益得不到有效的照顾、大家的权益最终都受到损害。奥尔森还指出,当集体越小、利益冲突越激烈的时候,越容易联合当集体越大、利益冲突并不明显的时候,越难联合。

20.专制者将一个国家大部分人的一部分权利和自由都剥夺了、抹杀了,大家都憎恶专制,但在一定时间、一定程度内,却很少有人反抗。为什么?这是因为,通过反抗,即使能推翻专制制度,其结果是所有人都受益,但出头冒尖的人却可能要付出极大的代价。人的自利天性,使大部分人都选择了沉默,并把希冀的目光投向他人。专制者当然也懂得这个道理,他们在维护专制的同时,会不遗余力地打击出头冒尖的反抗者,杀鸡傲猴,全力瓦解一切可能发生的集体行动。

21.我们信靠上帝。除了上帝,任何人都必须用数据来说话。
一一爱德华·戴明( 1900-1993 ),美国管理学家、统计学家

22.信息消费了什么是很明显的:它消费的是信息接受者的注意力。信息越丰富,就会导致注意力越医乏……信息并不匮乏,医乏的是我们处理信息的能力。我们有限的注意力是组织活动的主要瓶颈。
一一一赫伯特·西蒙 美国经济学家、政治学家、人工智能的创始人之一 1973年

23.数据挖掘,是在海量的数据当中通过分析和建模,发现数据背后隐藏的模式和微妙的关系,以揭示过去的规律、预测未来的趋势。

24.一个公众的政府,如果缺乏公众的信息,或者缺乏收集信息的方法和手段,那它只不过是一个短暂的序幕,拉开的将是一场闹剧或悲剧,也可能既是闹剧又是悲剧。知识将永远统治无知:人民如果想要当家做主、主导自己的命运,就必须用知识的力量来武装自己。 一一詹姆斯·麦迪逊,第
任美国总统, 1822年

25.数据能满足其既定的用途,它才有质量。如果不能满足既定的目标和用途,就谈不上质量。换句话说,数据的质量不仅取决于它本身,还取决于它的用途。 一一一杰克·奥尔森,数据库专家,
2003年

26."足够多的眼睛,将使所有的错误都无所遁形。"

27.争你们个人的自由,便是为国家争自由!争你们自己的人格,便是为国家争人格!自由平等的国家不是一群奴才建造得起来的!一一胡适(
1891-1962) ,中国思想家

28.开放的社会是这样一个社会:在这里,人们已经认识到,要多多少少用批判的眼光来看待禁忌,人们会把个人的决定建立在他们自己的才智和掌控之上。 一一卡尔·波普尔( 1902-1994
),英国哲学家, 1945年

29.从古至今,所有的政府,都带有保密、封闭的文化基因。虽然一谈到透明和开放,大部分人都会认可这是正确的价值观,但一旦要自己透明、要自己开放,那开放和透明就立刻变成了一种威胁。

30.数据是死的,分析是活的。

31.昆德拉认为:价值本身是一个基于主观的定义。同一组数据,在不同的时间、对于不同的对象,其价值是变化的。如果缺少背景,数据本身没有任何价值。

32.防止公民犯下错误,这并不是我们政府的责任;但防止政府陷于错误,却恰恰正是每一个公民的责任。
一-罗伯特·杰克逊( 1892 1954 ),美国最高法院大法官、司法部长

33.历史的发展从来都是这样一一执著的公民改变世界。

34.利益受到侵害的大众,由于其分散性,很难有效地组织起来;而公司、资本家一方,由于其利益高度集中,很容易结盟,形成游说的势力,左右政府的政策。

35信息不对称理论:.掌握信息多的人,在社会竞争中处于有利的地位,而信息贫乏的人,则处于不利的地位。前者可以通过向后者有偿转让信息来获取利益无偿出让,则收获"善意'\只有信息自由流动,各方掌握相同的信息之后,彼此才能建立完全的信任。

36.斯蒂格勒断言,尽管政府总是号称他们在代表公共利益对产业界进行管制,但现实并非如此,产业界会通过种种手段来影响政府制定标准的过程,最终俘虏政府、左右监管标准的制定。

37.如果把信息公开仅仅解读为公众对政府一种单方面的监督,是狭隘的、片面的,信息公开也是政府的一种自我保护。

38.人性的善变,远远超出我们的想象。我们要记住,无论何党当政,何人主政,政府总是有设法掩盖事实的倾向,信息公开不会自动发生,公民要参与、要抗争。

39."民主,永远不是一件已经完成了的事情。民主是一个过程,需要一个国家永不停懈的努力。"——麦克利什指出的:

40.在大数据时代,信息共享、交流互动已经不再是最迫切的需求,数据的分析和整合,才是最大的挑战,而这恰恰是万维网的短板。

41."现在,我们正处在这样一个阶段:如果你认为这是一个伟大的想法,那你就要去做。这件事,每个人的回报将取决于其他人是否行动。我想,今天我们在座的很多人,他们做事,并不是因为这件事很快就有投资回报,他们去做,是因为他们明白:每个人都去做了,就能成就→件好事。"——世界万维网之父蒂姆·伯纳斯一李

42.工具本身已经不再是竞争的优势。

43.与交流规模相比,交流的质量更为重要。大规模发送信息并不难,但只有挠到接收方痒处和痛处的信息才可能引起真正的关注。这就要求发送方必须了解信息受众,而不是简单地"群发"。这个方面

44.人的感觉中存在盲点,直觉不可信任,理性思维也有局限,大脑即使有惊人的记忆力,也未必有惊人的信息加工能力。很多时候,我们会高估自己的理性,低估情绪对我们的影响。认识自己虽然很难,但非常重要。基于数据的记录和分析,可以帮助我们走出错觉、认识真正的自己。

45.就像国家本身没有它自己的钱一样,国家也没有它自己的权力,但不幸的是,没有人清楚地明白这个道理。国家所有的权力都是社会授予的,或是以各种理由和借口向社会剥夺的,除了社会,国家权力没有任何其他的来源。
一一艾尔伯特·诺克( 1870-1945 ),美国著名作家、社会批评家

其他笔记

数目字管理,即以事实为基础、以数据为核心的精确管理。

最小数据集,其实就是一个业务管过程当中最重要的数据指标。

数据挖掘有两个目的,一是要发现潜藏在数据表面之下的历史规律,二是对未来进行预测,前者称为描述性分析,后者称为预测性分析。它的范围从“已知”扩大到了“未知”,从“过去”到“将来”。

普适计算:随时随地联网,通过网络将计算请求发送给服务器,或者周围的计算机本身就有计算的能力,以获得计算。

数据仓库和数据库最大的差别在于,前者是以数据分析、决策支持为目的来组织存储数据,而数据库的主要目的则是为运营性系统保存、查询数据。

我们不知道原因,但我们可以知道正确的结果。

 联机分析:与数据库的报表不同,数据的报表只能满足常见的数据查询的需要,其需求在最初有用户告知程序员,程序员编写特定的功能,无法由用户自定义,而且其只针对某一数据库,不同数据库之间无法进行很好的数据共享和分析。联机分析是一个复杂的、中介性的“数据综合引擎”,把分布在不同系统的数据库人为连接起来,实现了联机分析。

数据是信息的载体,知识是对信息的提取

结构化数据:有统一结构和格式

非结构化数据:如博客、留言等

人的创造力不仅取决于逻辑思维,还取决于形象思维

边际成本:多生产一个单位产量所需要增加的成本

发布和公开:公开是针对需要获取信息的对象,公开是针对全社会的。

​集团利益与个人利益:当大众的利益是分散时,其利益需求无法集中起来,而获得利益的成本对个人而言难以承担时,他们会成为沉默的大多数。即使获得利益后,他所获得的利益也许其他人相同。集体越大,越难集中起来。

个人利益与集团:个人不愿出头,而是愿意跟随集体,等待有人出头,搭顺风车。

互联网一般指的是硬件意义上的网络,万维网才是网络的灵魂。

把计算的能力放在互联网上,而不是你桌面的个人电脑上。所有的硬件计算能力、存储能力、软件执行能力,全部都由网络提供:网络就是你的计算力,网络就是你的电脑。

云计算:云的运营商把计算能力当做一种资源,集中在一起,然后再通过网络,配送给有需要的客户。客户需要的计算资源多,服务商就送得多;客户需求一下降,配送就可以立刻下调。客户购买这种服务之后,就不再需要再购置额外的软件和硬件。这对小公司而言,意味着不用投入大量的资金购买服务器和软件,通过租用,立刻就可以享受到以前只有大公司才能配置的软硬件能力。也就是说,就像自来水管道供水、电力网输电一样,云计算把"计算"从有形的产品变成了无形的服务。

假设安装一部电话非常昂贵。当你计划安装时,你会审视你周围的朋友,如果他们都不买、也不装,那你的电话就无人可打、毫无作用,只有用的人越多、你能联系的人也就越多,电话对你的价值才越大。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息