hadoop学习之前的一些东西
2017-04-25 15:51
260 查看
在开始学习hadoop之前,应该先了解它的应用场景是什么,它能够做什么,再来学习使用它。
应用场景(搜索结果):
大数据量存储:分布式存储
日志处理: Hadoop擅长这个
海量计算: 并行计算
ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库
使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统
机器学习: 比如Apache Mahout项目
搜索引擎:hadoop + lucene实现
数据挖掘:目前比较流行的广告推荐
大量地从文件中顺序读。HDFS对顺序读进行了优化,代价是对于随机的访问负载较高。
数据支持一次写入,多次读取。对于已经形成的数据的更新不支持。
数据不进行本地缓存(文件很大,且顺序读没有局部性)
任何一台服务器都有可能失效,需要通过大量的数据复制使得性能不会受到大的影响。
用户细分特征建模
个性化广告推荐
智能仪器推荐
是什么?能做什么?(搜索结果):
Hadoop就是一个分布式计算的解决方案. Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理)。
*优点:***Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。
hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中 的 自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。
应用场景(搜索结果):
大数据量存储:分布式存储
日志处理: Hadoop擅长这个
海量计算: 并行计算
ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库
使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统
机器学习: 比如Apache Mahout项目
搜索引擎:hadoop + lucene实现
数据挖掘:目前比较流行的广告推荐
大量地从文件中顺序读。HDFS对顺序读进行了优化,代价是对于随机的访问负载较高。
数据支持一次写入,多次读取。对于已经形成的数据的更新不支持。
数据不进行本地缓存(文件很大,且顺序读没有局部性)
任何一台服务器都有可能失效,需要通过大量的数据复制使得性能不会受到大的影响。
用户细分特征建模
个性化广告推荐
智能仪器推荐
是什么?能做什么?(搜索结果):
Hadoop就是一个分布式计算的解决方案. Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理)。
*优点:***Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。
hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中 的 自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。
相关文章推荐
- 我的智能网学习笔记.一些乱七八糟的东西.
- 准备重新学习一些东西
- 一位大师总结的东西---J2EE学习中一些值得研究的开源项目
- 学习Hadoop中遇到的一些问题
- C++学习笔记—类6-有关继承的一些东西
- 最近加入了控件开发团队,发现一些基础的东西,转发上来方便大家学习(转)
- Hadoop平台学习过程的一些总结
- 刚开始学习iphone时可能用到的一些东西
- Ext学习过程的一些错误(太基础的东西)
- 穆穆读的一些书籍推荐,读书的理由?读书的好处?为什么要读书?读什么书?让我们一起来读书,总之我们需要学习新的东西来适应这个社会的飞速变化。
- 最近打算学习的一些东西
- 最近学习到的一些东西的整理[技术方面]
- Hadoop 的一些学习资料
- 看腾讯页面学习的一些东西
- 给学习Java初学者一些个人感觉有用的东西
- 搜集一些最近要学习的东西 [dot net]
- 学习GTK时候临时记录的一些东西备忘
- 转载的关于java学习的一些东西
- iOS学习--从lazyTableImages官方例子学到的一些东西
- Hadoop学习笔记(五):一些关于HDFS的基本知识