您的位置:首页 > 大数据 > 云计算

云计算及hadoop概念

2013-09-04 19:34 176 查看
什么是云计算:

 
将软件作为服务:SaaS (Software as a Service):如:Google Docs、Maps、Gmail、
Calendar、Wave
国外最典型的是Salesforce提供的在线CRM,用户不需要购买服务器和安装应用软件,就可以通过web使用,其它的还有Oracle的CRM
on demand,微软的Windows Live,Google的Docs,IBM的Lotus
Live等。
国内比较典型的是八百客,提供在线CRM。还有金蝶用友等提供的在线财务软件等。其实早期的企业级邮箱也算一个,SaaS的不同之处在于提供的在线应用五花八门,每家主要集中的是某个领域,没有哪个能够覆盖所有的。

 

将平台作为服务:PaaS (Platform as a Service)平台通常包括操作系统、编程语言的运行环境、数据库和 Web 服务器,用户在此平台上部署和运行自己的应用。用户不能管理和控制底层的基础设施,只能控制自己部署的应用。
也可以使用Google提供的服务来开发新的应用。google因为这也算是云计算的鼻祖之一。
国内的典型平台包括新浪,百度等互联网提供商等提供的应用引擎,开发者可以购买应用部署在其上,也可以通过其开放的服务接口编写应用。

 

 

将基础设施作为服务:IaaS (Infrastructure as a Service)应用:Iaas通过网络向用户提供计算机(物理机和虚拟机)、存储空间、网络连接、负载均衡和防火墙等基本计算资源;用户在此基础上部署和运行各种软件,包括操作系统和应用程序。国外最典型的就是亚马逊Amazon,它提供了EC2和S3,主要是虚拟计算环境和云存储。

 

Hadoop简介

Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

下面列举hadoop主要的一些特点:

   1 扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据

2 成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

3 高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。

4 可靠性(Reliable):hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。

 

* Hadoop Common: 在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common

* HDFS: Hadoop 分布式文件系統 (Distributed File System) - HDFS (Hadoop Distributed File System)

* MapReduce:并行计算框架,

 * HBase: 类似Google BigTable的分布式NoSQL列数据库

* Hive:数据仓库工具,

* Zookeeper:分布式锁设施,提供类似Google Chubby的功能,

 * Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。

特点:高性能、低成本、高可用性、高可扩展性、可管理性的海量数据管理、存储、处理平台和应用

注重点:功能、性能、可靠性、可扩展性、可管理性

关键点:大规模集群管理技术,分布式文件系统(hdfs),并行计算系统平台(map reduce),海量结构化数据管理系统(hbase)

高性能、可靠、可扩展、可管理的海量数据存储、管理和处理平台

 

主要包括虚拟化平台资源层、云计算平台层、应用适配层和业务层。并且已经搭建了一个256节点小规模得云计算平台

单硬盘速度:读:max:110-120MB ave:70-90MB 

                            写: 30MB

PB级别的高性能文件系统,系统无性能瓶颈,聚合IO带宽达到系统带宽80%-90%,并随节点数近似线性增长

 

Hbase:高可靠、可伸缩、高性能的的海量结构化信息存储系统

响应时间:索引查询时间比分布式查询小几个数量级,后者比串行扫描快几个数量级

吞吐率:TB级别数据读写吞吐率均随节点数增加而增长,但是并非严格的线性关系

存储能力:每节点可以管理1800个256MB的Region,每个Region占用约2.0MB内存

扫描能力:随着节点数增加全表扫描时间近似线性下降

索引查询能力:在秒级别完成查询,基本上不随节点数变化而变化

在网络中,结构化数据云存储系统与应用系统和运营管理系统连接。结构化数据云存储系统通过标准化结构为应用系统提供结构化数据存储和访问服务。结构化数据云存储系统与运营管理系统之间的连接主要用于运营管理系统对结构化数据云存储系统的实施管理,如对结构化数据云存储系统的数据管理、各节点服务管理、性能管理、故障管理等等。

 

 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: