您的位置:首页 > 运维架构

浅谈Hadoop技术——前言

2016-11-04 15:39 197 查看

前言

随着“互联网+”时代的到来,互联网的发展又到了一个新的高度,在这高速发展的情况下,所带来的问题就是数据成倍数的增长,数据增长对于公司的发展是好事,说明这个公司的用户很多,发展很迅速,但是对于机器来说却是个负担,这么多的数据要怎么存储的?这些大量数据还需要CPU计算,备份等问题。所以这些问题就制约了互联网的发展,所以Hadoop在此时就粉墨登场了。

Hadoop的产生背景

Hadoop起源于Nutch(爬虫)项目,这个项目的目的是为了通过爬虫从网上抓去大量的网页进行分析计算,首先需要把这些大量的网页存储在磁盘上,但是存在磁盘上还不算完,因为它要做的是一个搜索引擎,所以它需要为这些网页通过Lucene的分析从而建立全文索引,然而这些大量的索引也需要磁盘对它进行存储,然后通过JAVAweb程序通过Lucene去查询索引实现搜索引擎功能。那我们想想这些网页和索引是多么大的数据量,并且每时每刻爬虫都在从网上抓取数据,在通过Lucene进行分词建立索引,并且希望通过JAVAweb程序搜索是能够快速的找到想要的索引。这就是当时Nutch项目所遇到的难题。

但是当时的Google这个搜索引擎却能够解决这些问题,给用户特别快的搜索速度,所以直到Google发布了GFS、MapReduce、BigTable三篇文章Nutch的问题才得以解决,解决的办法是借鉴这三篇文章的思想,自己实现了这三种技术,分别叫做HDFS、Mpreduce、HBase。这三种技术组合起来成为Hadoop,从此Hadoop就应运而生了

接下来的博客我们就会围绕着这三种思想讲。

Hadoop简介

hadoop核心组件:hdfs存储文件、yarn系统资源调度、mapreducer计算框架

HDFS(hadoop distribute file system)| MapReduce(并行计算框架)主要有这两部分功能组成

Hadoop生态系统

Hive:HQL(Hive Query language) sql –> 翻译成MapReduce程序运行 ETL hive编程指南

Hbase:基于列存储数据库,基于分布式存储HDFS 行 10亿 * 百万 大数据随机访问
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: