您的位置:首页 > 大数据 > 云计算

Hadoop中国2009云计算大会-2

2013-02-25 18:34 155 查看
上接Hadoop中国2009云计算大会-1

[主持人 查礼]:下面是由中国移动黄晓庆院长来做精彩报告,请大家欢迎。
10:46

[黄晓庆]:我就用英文讲,没问题吧。没问题。
10:47

[黄晓庆]:之前我们听到了雅虎在Hadoop上的贡献,我们觉得很让人印象深刻,我先讲一下中国移动在Hadoop上面的工作。不仅是技术上的研发,也讲一下商品化的情况。我讲一下中国移动和Hadoop和开源社区之间的关系。
10:48

[黄晓庆]:我们的项目叫做大云,我们认为云应该是大的。我们的目的是为了建立一个系统,为了满足我们内部对高性能计算的需求。我们有36TB的数据,同时正在快速增长中。
10:49

[黄晓庆]:第二点我们所关注的是可能会利用这些技术来建立一个互联网的服务平台,我们希望能建立一些云的服务,能够出售给公众。最近我们刚刚发布了大云的1.5版本,是基于稳定的Hadoop版本。
10:49

[黄晓庆]:我作为云计算国家委员会的成员,也希望这个能够为国家网络做出一些贡献。我们将今后的业务分成三个方向,第一、基础架构。第二部分是平台级的服务。这一部分我们会着重于收费、服务等方面。基于这两方面之上,我们希望能提供“软件即服务”。我们的目的是帮助中小企业来减少他们的IT成本和复杂性。我们也同时提供办公自动化的解决方案,我们希望将来我们可以利用云计算的技术来实现这些设想。
10:53

[黄晓庆]:这是我们大云的架构图。我们使用Xen作为底层。在此之上我们实现了增强的DFS作为存储平台,过去我们是建立服务,软件,并交由托管业务。我们希望新的平台能够完全根本性的改变Internet工业的格局,不需要购买硬件设备和开发软件,事实上国际上有很多互联网企业已经是基于这个模式运行。
10:59

[黄晓庆]:在这儿我会讲一下我们在Hadoop上做的一些工作。我们建立了一个管理系统,我们希望能够成为中央管理模块,叫做CloudMaster。我们也花了一些精力解决Hadoop现有的一些问题。我们增加了多名字结点,我们还进行了一些数据挖掘和搜索的开发。这不仅仅可以被应用于互联网行业,更可以广泛应用于广义的数据挖掘方面。在此之上大家可以看到,我们建立了很多应用。今天我们有一个256个结点的Hadoop系统,共有1024个CPU,这是一个研究性系统,我们希望明年建立更大的用于生产的集群。我们对比了传统的高性能计算解决方案和Hadoop,同样的成本下,我们可以得到1—2倍的性能增加。
11:0

[黄晓庆]:我想特别谈一下数据挖掘这个应用,我们开发了一些基于Hadoop的算法,其中有一些是经典的数据挖掘算法,所以我们已经将他们使用在很多实际生产运行中。我们试图挖掘用户关系,通过用户的日志,和传统系统相比,这个系统使用了1/6的成本实现了6倍的性能。
11:5

[黄晓庆]:下一点我要谈的是HDFS的名字结点的扩展。多数公司认为单一名字结点已经足够,但是对于通信企业来说,这就是一个问题,所以我们设计了一个多名字结点的架构。当然我们增加名字结点会增加成本,但是你所得到的是高可靠性和增加的性能。我们希望能够和Hadoop的开源社区进行交流,将这一部分贡献给大家。我们刚刚开始和开源社区进行交互,我希望能够更多的增加对开源社区的贡献。我们希望跟雅虎增加合作,同时我们也愿意很积极的参与到开源社区的开发中。
11:7

[黄晓庆]:下面是我对开源社区的一些建议。我们见到了Hadoop用户在飞速增长,我们希望有一个更全球性的开发贡献。我很高兴看到72%的贡献来自雅虎,但是我们认为对Hadoop长远发展这并不是一个最好的现象,我们希望用Hadoop的用户都有一些贡献。
11:8

[黄晓庆]:第二、我希望能够建立一些基于开源社区的云计算规范标准,使得不同的应用能够遵循这些标准从而不需要只绑定在一个平台上。一个例子是亚马逊的云计算应用,用户可能希望能够运行在另一个非亚马逊的平台上。另一点是我们希望有更多的社区开发交流活动。包括大型的会议或者是小型的研讨会。
11:12

[黄晓庆]:最后一点,中国移动会继续支持Hadoop in
China的大会。中国移动将会赞助下一届的Hadoop大会。
11:12

[主持人 查礼]:下一个报告是Facebook的邵铮来做。
11:13

[邵铮]:谢谢大家,我非常高兴今天第三次来到这个大会上,来给大家分享一些Hadoop使用的经验和体会,刚才黄院长讲到Hadoop需要大家的支持和大家的贡献,今天我就想以Hive为一个例子,在Hadoop之上进行开发贡献的一些体会。
11:15

[邵铮]:下面是简要的一个时间表,这个时间表记录了Hive发展过程当中三个主要的阶段,第一个阶段是准备的阶段,从2007年中开始,在Facebook生产的环境当中,传统的数据仓库的解决方案,我们发现非常多的挑战,这也是为什么我们当时在分析比较各种各样的Solution后,把Hadoop作为方案的基石。第二个阶段是08年开始的,第三个阶段是去年9月份开始的。下面我们一一来介绍一下两个阶段所经历的主要过程和一些决定。
11:16

[邵铮]:2007年中的时候,Facebook遇到了数据仓库的可伸缩性问题,当时我们数据非常大,这张图是我们最最简单的一个系统结构,我们当时大约有3000台的HTVBserver,同时接受用户的请求,同时产生大量的“拉五”的数据,我们记录在第三方提供的这种大型的网络存储设备上,我们使用的系统非常非常的稳定,也非常非常昂贵,存储量非常大,但是不是特别大,每个机器存储量50—100个TB这样的一个量级,同时我们有很多数据存储其中,所有做数据处理的时候,数据仓库通过20台我们叫dataWorkers来实现的,当时出现问题就是我们发现需要使用超过20小时时间,才处理一天的数据,可见不久的将来,处理数据就会超过一天,这时候我们就没有办法跟上应用的需求。这个时候我们就开始分析我们自己公司的一些情况,然后在各个不同的trace当中选择自己的一个Solution,当时考虑几个需求,第一个是可伸缩性,我们数据增长量非常非常快,当时预计是5—10倍之间,这个可伸缩性要求非常非常高,我们希望这个系统支持几百台到数千台机群的规模。第二、开放性,或者说灵活性,因为我们希望这个系统能够非常容易加入新的功能,这样的话我们在遇到我们新问题的时候,很容易修改原来的Solution来解决。第三、时间,时间非常紧张,我们希望尽快推出这样一个系统满足我们的业务需求。
11:21

[邵铮]:当时主要的选择有四个,第一、使用第三方专有的系统,或者我们可以从头开始,来创建一个新的系统,或者我们就从Hadoop之上,或者从其他的入手。我们当时工程师少于10个工程师,大部分的工程师的时间都是用来支持线上的一些服务,就是我们的一些ETL,这些数据怎么把他从在线的系统取下来,放到我们数据仓库当中,怎么从中产生一些数据的报告。我们确实也在不停的想要招聘更多的工程师,但是招聘更多人,并不是非常容易,特别是找到很合适的人,基于这些因素,我们做一些分析,首先我们排除第三方专有方案,首先他非常昂贵,并且不是很灵活,我们想增加新的功能,需要和第三方厂商联系,许多很多的时间才能加入新的功能,并且大多数第三方厂商,他们考虑的应用方案是给中小型的公司使用的,针对稍微大型的公司,很难满足我们的需求。
11:22

[邵铮]:第二、我们如果从头开始的话,将要花费巨大的时间,这也是我们一开始排除的方案,我们比较Hadoop和其他的方案的时候,它的性能可能不是最好的,他的潜力是最高的,因为这些原因我们最终选择了Hadoop这样的方案。当时我们使用0.15的这个版本,当时遇到很多bug,都修复了,但是没有遇到大的问题,Hadoop我们感觉主要的优势是两点,第一、他的可伸缩性非常强,雅虎公司对Hadoop不遗余力的支持,一直到现在,社区也在不断的扩展,更多的公司加入这个社区,讨论非常热烈,有很多公司在使用这个系统,也使我们增强了我们使用这个系统的信心。所以我们认为Hadoop有非常大的潜力。
11:25

[邵铮]:当然也有一些缺点,当时认为Hadoop性能还有一些问题,我们认为这个性能不是大的问题,Hadoop
design很容易解决的,比如说使用Java
language都不是非常难解决。第二个问题,用起来不是非常方便,如果每个新的员工学习是非常大的问题,当时我们进行Hive的一些实验,主要就是因为我们公司的内部除了这个工程师以外,还有一些做数据分析的,他们也希望使用这个系统,他们只会使用language,在Hadoop之上,有更高层次的language,没有支持的,我们开始进行最简单的使用,当然不是使用language,但是非常非常有用,生产环节当中有一些环节使用我们这个系统了,这使得我们更加相信这是一条正确的道路,所以我们从那个时候开始,对Hive
project做了更长远的规划,投入更多的资源去开发。
11:29

[邵铮]:当时我们考虑的主要的优先级有两条,一个是我们在一开始的时候,就希望能够得到一个比较好的这样一个设计,因为好的设计,能够使得我们project走得更远。当时基于这两点的考虑,我们没有把project直接给open
source。我们当时差不多有10个工程师在FB内部,来进行这些设计和开发,用了大约将近6个月的时间推出了Hive的第一个版本,当时有一些这些设计,其实我们也是通过一些渠道open
source committee,像邮件列表或者是一些会议,像open source
committee有一些展示,但是没有让它加入讨论,这样会使我们project进度会变慢,2008年9月份的时候,第一个可用的版本,是给Hadoop
0.17版本用的,为什么我们把Hive用于open
source呢,对于一个公司来说,本身工程师的资源都是有限的,要支持一个很大规模的项目,很不容易,而Hive
project是比较普适的project,不管是建议和意见也好,还是使用的经验也好,还是直接有代码的也好,对Facebook也有好处,FB我们一直把自己作为一个技术公司来对待,我们要树立在技术行业里的形象,Hive进一步加强了我们公司这个形象,这个结果导致我们招聘新员工的时候,有很大的好处,很多员工,很多这种我们公司招聘的人,他们事先都知道,Facebook在Open
source领域的一些贡献,新的员工加入我们公司的时候,他们很可能已经学会了使用Hive这个系统,加入公司直接开始工作,而不需要一些额外的培训,总体来讲大大减少我们在研发方面的费用。
11:32

[邵铮]:对于其他公司来讲,Hive是一个比较通用的这样一个solution,对其他公司也可以节省大量的资源,对学术界来讲,Hive已经成为一个研究的平台,已经有若干篇文章发表在世界顶级的会议之上,我们认为这样一种举动可以解决社会当中的重复劳动,提高社会的资源利用率。
11:33

[邵铮]:下面就是Hive在2008年9月,核心的系统一定要非常简单,并且是松散型的结构,我们把系统的接口全部都open,这样利用其他公司和个人加入开发的过程,来做competition,同时加入的时候,我们也同时考虑公司内部的需求和整个社会的需求,在两个之间做一个比较好的权衡,代码库存储Facebook内部的代码只是在Apache代码库的拷贝,我们定期的把Apache流到Facebook,这样我们可以控制新的功能,每次我们移到新的版本的时候,都需要做很多很多测试,Facebook也有一些专有的课,和我们业务相关,这些课和Hive有关系,但是这些课只有FB内部才有。另外一方面,关于讨论以及一些开发到底是怎么样去组织,我们也是大量采用来组织讨论,这样的好处,大家都可以很容易的看到我们Hive发展的过程,后来人,新加入的人,很容易了解Hive当初做一些设计的时候,当时的考虑是什么,我们发现这一点是非常非常的好。
11:36

[邵铮]:内部也有一些工具,但是内部的工具,Facebook内部的工具,只是用来做FBFacebook内部评测的使用,这些信息没有必要,我们也不会把它公布到外面去,对外面的公司估计也不会有什么帮助。对于新用户,加入到Hive这个领域的新用户,我们通过邮件列表和其他一些方式提供一些支持,现在越来越多有比较熟练的这些Hive用户帮助新用户解决问题,逐渐形成了正向的正反馈。
11:37

[邵铮]:现在我们再来检查一下Hive到底是什么样的情况,在今年夏天的时候,我们对Hive的性能做一个评测,评测的结果。我们从Open而source当中超过有“地外了铺”加入了Hive的开发,提供代码超过100个,还有很多很多decision,所有这些都是验证了我们当时做Hive的时候,把他open
source加入我们的开发,并且在接受方面,我们公司招聘的时候,新的员工已经了解到我们的系统,对于学术界也起到了一些促进的作用,下一页我们看学术界这方面的情况。
11:39

[邵铮]:我们写了一篇文章,引用Hive的文章已经有三篇,都是比较顶级的会议。我们想通过这些就可以显示出我们当时Open
source的目标已经得到很好的实现。
11:39

[邵铮]:公司内部来说,这个可伸缩性的问题也得到了比较好的解决,我们现在有600台机器,每两周我们会加入一些新的机器,具体一些细节我们会在下午有一个具体的介绍,对于我们系统结构主要的改变,原来20台机器改成600台机器的Hadoop。
11:40

[邵铮]:纵观这个过程,我们体会到,在Hadoop
committee当中,和大家协作有三个阶段,一开始是使用Hadoop这个软件,因为必须,我们首先使用这个软件,感觉这个软件对我们的公司,或者是学校有帮助,我们才更有兴趣去加入Hadoop
committee,使用Hadoop这个软件以后,会发现有一些问题,发现这些问题我们就可以加入,慢慢简单做一些开始,对代码进一步熟悉,熟悉Open
source管理方式,以后有需求的时候,我们可以开始一个新的项目,这个项目可以基于Hadoop之上,像这张图上所画的,我们并没有从头开始,把整个系统都搭建起来,我们基于已有的系统进行搭建,这样的方式使我们集中精力,把一小块东西做好。另外一点想讲的,大家可能发现Hive和Pig有一些相似之处,但是其实在设计上还是有一些底层的区别,在open
source里面也不是唯一的。
11:41

[邵铮]:最后这个结论就是,我们非常高兴一开始在2007年中的时候,我们就做了一个非常非常好的决定,我们当时接受了Hadoop这样一个solution,2008后期,一起来开发这个项目,我们非常希望能够和open
source
committee一起合作,希望更多的人加入这个圈子当中,如果整个过程当中有一些问题,欢迎会后和我联系,这个大概就是我今天讲的所有的东西,谢谢大家。
11:41

[Christophe
Bisciglia]:我今天要讲一下Hadoop的历史以及怎么样在Hadoop当中来帮助用户来使用Hadoop这个系统,这个是讲Hadoop相关的一些历史,2004年第一篇Hadoop相关的文章,在2005年,Hadoop的开创人开始创建Hadoop的原形,2006年Hadoop可以成功的运行在20代机器的小型机上。2006年的时候,雅虎开始正式向Hadoop项目来投资,2007年雅虎在2000台机器上运行Hadoop这样一个系统,2008年雅虎使用Hadoop在公司内部正式取代正式的系统。大家所感兴趣的是Hadoop三个大方面,可靠性,可扩展性和易用性。Hadoop在近期之内,有一些新的发展,就是有一些新的子项目,比如说像Hive是使用SQL这样一种语言来操作数据的。Pig是另一种数据分析的语言。
11:43

[Christophe
Bisciglia]:在今年年初的时候,Cloudera公司做了一个Sqoop。这个工具是用来从数据库当中获取数据,把它下载到Hadoop之上,这个工具可以有很强的可扩展性,用户可以在这个工具之上加入新的功能,最近我们传统型一些关系型数据库的厂商开始使用Hadoop,大家发现,map
reduce这样一种方式用来做数据分析非常的好处,Hadoop是map
reduce的标准,Hadoop被全球很多的公司所采用。在美国全国到处都有使用Hadoop的用户群。Hadoop已经不只是给因特网公司使用的工具,已经有越来越多的电信行业的企业以及金融公司开始使用Hadoop。
11:46

[Christophe
Bisciglia]:使用Hadoop主要的挑战是,开发Hadoop难度非常大,部署Hadoop难度也非常大,管理Hadoop的集群也难度非常大,教会新用户使用Hadoop软件难度非常大。Cloudera认为开发Hadoop之上的应用应该非常简单。Cloudera做了一个Hadoop的发布版本,这个版本使用的授权协议是Apache2,稳定性比传统的Hadoop有了很大的提高。他们有多个发布版本,有新的版本支持新的功能,也有老的版本更加稳定。第三是写一份软件可以在多个不同平台上运行。他们支持的第一个发布版本CDH1是基于Hadoop0.18.3版本。第二版本CDH2最近刚刚发布,第二版本其中加入了“H
bis”。开源和micro是他们的重点。这张图上显示的是Cloudera的使用量、下载量,现在75%的Hadoop新用户使用Cloudera的版本。
11:48

[Christophe
Bisciglia]:下面是主要使用Hadoop的新公司。原来我们有雅虎和Facebook,现在我们有VISA,Amazon公司,ebay、NTTKDDI,中国移动,这些都是电信行业使用Hadoop的公司。电信行业使用Hadoop来了解用户使用他们电信网络的情况,优化他们的网络配置,美国的供电局使用Hadoop来分析他们电网的使用情况。金融公司包括VISA和JP摩根使用Hadoop分析他们的股票以及其他的一些数据。零售商也开始使用Hadoop,我们已经知道像亚马逊和ebay这样的网站开始使用Hadoop。
11:51

[Christophe
Bisciglia]:第五、关于生物公司,生物公司使用Hadoop的技术,来对人体的DNA测序,分析人体的DNA数据。从这些新用户之间的共通点中,我们发现Hadoop的使用是从开发者开始,是从工程师开始,因为Hadoop本身是免费的,工程师可以很容易拿到很多的源代码,可以试用,然后直接来解决公司问题,而不需要公司高层的批准。但是管理Hadoop技术的人员在使用Hadoop过程当中遇到很多困难,因为他们并不熟悉Hadoop这样的软件。
11:52

[Christophe
Bisciglia]:我希望把Hadoop构筑的更好用,但是除了开发者以外,除了工程师以外,其他的一些人也想使用Hadoop上的应用,比如说数据分析员,或者商业分析人员。
11:53

[Christophe
Bisciglia]:对于新用户来说,Hadoop主要的挑战有,第一稳定性,稳定性的重要性大大大于新功能的重要性,第二、Hadoop与现有系统的整合和结合非常重要,因为只有这样,大家才能把原有的系统和现有的新系统结合起来,对业务提供更好的帮助。
11:54

[Christophe
Bisciglia]:Cloudera***Hadoop版本是希望能够通过这样方便用户使用Hadoop,安装Hadoop,维护Hadoop,今天下午Cloudera另一个员工会讲解Cloudera所做的一个软件叫Hadoop桌面,可以用来很方便管理Hadoop,也给Hadoop应用的开发人员提供很大的方便。
11:55

[Christophe
Bisciglia]:下面是Hadoop桌面的一个例子,这个桌面和传统的Linux以及其他一些桌面很相似,所以使用起来非常容易上手。这几个窗口显示的是在Hadoop上运行的任务,每个任务的详细信息以及这些任务目前执行的状态。在这个报告当中,我们不会仔细介绍Hadoop桌面的东西,因为下午有更详细的介绍。但是我想提到的是,Hadoop桌面这个软件本身是开放的,他有很多应用程序开发的接口,大家可以在Hadoop桌面之上继续开发。刚才那页显示的是Hadoop桌面用来显示Hadoop文件系统的界面,这一页显示的是Hadoop桌面用来调试和编写Hadoop代码的界面。Hadoop桌面和windows的资源管理器非常相似,用户可以通过Hadoop桌面上传和下载文件,用户可以使用这个软件直接查看文件的内容,这一页显示的是Hadoop桌面用来调试和编写Hadoop代码的界面。
11:57

[Christophe
Bisciglia]:Hadoop桌面和windows的资源管理器非常相似,用户可以通过Hadoop桌面上传和下载文件,用户可以使用这个软件直接查看文件的内容,这一页显示的是当前的map
reduce的界面,而这一页显示的是使用Hadoop桌面查看map
reduce的状况,我们可以点击上面的链接获得更加详细的情况,这页显示的是如何使用Hadoop桌面来调试程序。
11:59

[Christophe
Bisciglia]:Hadoop桌面当中还有一个功能,可以监测集群的健康状态,我们使用图形来显示集群的健康情况,图中每一个绿点表示一个健康的机器,每一个红点表示一个不健康的机器。Hadoop桌面监测机器的功能非常非常开放,有继续开发的接口,让用户加入新的功能。现在界面显示的是任务设计器,任务设计器允许用户设计三种不同的任务,map
reduce、Pig、Hive,我们可以想象,使用这个界面可以很容易的设计一个数据挖掘的算法,对这些技术不是很熟悉的用户,可以直接使用这个界面来设计他们所需要的数据分析的任务,然后只要轻轻点击一下,就可以让这个任务在Hadoop的集群上运行。
12:0

[Christophe
Bisciglia]:这一页是关于Hadoop桌面的一些细节,Hadoop桌面是只在Cloudera发行版本上能用,Hadoop桌面可以在你自己数据中心的集群上运行,也可以在亚马逊的集群上进行。Hadoop桌面所使用的桌面管理器是开源的,Hadoop桌面并不想替代命令行的工具,而是一个非常好的补充。熟练的Hadoop使用者将继续使用命令行,但是对于新用户或者是非技术性的用户Hadoop桌面会是一个很好的选择。
12:2

[Christophe
Bisciglia]:我最最感到兴奋的是,Cloudera的Hadoop桌面的API,Hadoop桌面的架构正在逐渐的稳定下来,我们正在与一些合作伙伴一起开发新的Hadoop上的应用,我们希望能够使用一个单一的接口来概括这个社区当中的创新。API将会在将来的数月之内完全开源,如果你们想了解更多的信息,可以给以上的Email地址发信,我会及时的告诉你最新的进展。
12:3

[Christophe
Bisciglia]:下面一页显示的是几个链接,如果你想免费获得C的Hadoop版本只需要走到第一个链接。我们公司提供免费的在线的Hadoop培训,这是页面上第三个链接。用户可以在线观看Hadoop培训教程,并且可以在在线的使用Hadoop来进行联系,第四个链接是Cludera的链接,非常感谢与会的各位嘉宾和组织者。
12:4

[主持人 查礼]:上午的会议到此结束。谢谢!

12:6
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: