大数据时代的遨游
2017-06-26 17:50
239 查看
Hadoop来临
特点:海量数据需要及时分析和处理。海量数据需要深入分析和挖掘。数据需要长期保存问题:磁盘IO成为一种瓶颈,而非CPU资源。网络带宽是一种稀缺资源硬件故障成为影响稳定的一大因素Hadoop在国内的应用
奇虎360:Hadoop存储软件管家中软件,使用CDN技术将用户请求引到最近的Hadoop集群并进行下载京东、百度:存储、分析日志、数据挖掘和机器学习(主要是推荐系统)广告类公司:存储日志,通过协调过滤算法为客户推荐广告Yahoo:垃圾邮件过滤华为:云计算平台Facebook:日志存储,实时分析某公安部项目:网民QQ聊天记录与关联人调查系统,使用Hbase实现某学校:学生上网与社会行为分析,使用hadoop淘宝、阿里:国内使用Hadoop最深入的公司,整个Taobao和阿里都是数据驱动的Hadoop介绍
作者:Doug Cutting(Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。)Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。Hadoop特点
⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。⒊高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。⒋高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。5.低成本。与一体机、商用数据仓库等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。Hadoop生态结构
HbaseNosql数据库,Key-Value存储最大化利用内存HDFShadoop distribute file system分布式文件系统最大化利用磁盘MapReduce编程模型,主要用来做数据的分析最大化利用CPUHadoop测试常见问题和测试方法
http://xqtesting.blog.51cto.com/4626073/1349097相关文章推荐
- 大数据时代的遨游
- 大数据时代的遨游
- 大数据时代,野心勃勃的MongDB为你处理海量数据!
- 大数据时代的SQL、NoSQL和NewSQL
- 大数据时代的数据存储,非关系型数据库MongoDB
- 大数据时代是什么决定了企业的生死存亡?
- 大数据时代[生活、工作与思维的大变革]
- 诺基亚死于大数据时代 上海唯一旗舰店关门
- 大数据时代:十大最热门的大数据技术
- 大数据时代:从驾驭到消费
- 大数据时代的历史机遇——产业变革与数据科学
- 加入SupStat培训生计划,助你成为大数据时代精英
- 大数据时代,你准备好了吗?
- 大数据时代,给大数据应用还在不惑的人
- 机遇与挑战:大数据时代数据挖掘与网络科学助力市场研究
- 大数据时代的税收政策【智库2861】
- 爆发~大数据时代预见未来的新思维
- 大数据时代的新BI系统架构发展趋势
- 内存数据库:大数据时代数据管理新宠
- 大数据时代的“读心术” 网络文学挥舞“三板斧”