大数据笔记-12.27海淀中关村
2015-12-27 22:56
218 查看
一、Hadoop部署,Hadoop之父------》Doug cutting
(1)Cloudera 25%
(2)Hortonworks 15%
(3)Others 20%
加起来并不是100%
二、预计到2016年数据分析有1600万的缺口
认证 数据分析师、大数据架构师
三、Cloudera考试,获得Hadoop生态系统全方位的体验
1、具备基本Linux系统管理经验
2、MapReduce和HDFS的内置及如何搭建Hadoop框架
3、搭建Hadoop集群所需要考虑的网络因素
4、通过合适的集群配置和部署集成系统与数据中心的硬件
5、如何利用Hadoop配置选项进行系统性能的调优
6、如何使用Flume加载动态生成文件及使用Sqoop连接关系数据库
7、配置FairScheduler为集群多用户提供服务级别协议
8、为集群安装和实施基Kerberos的安全性
9、Hadoop集群维护和监控
10、排错,诊断,调优和解决Hadoop问题
11、使用其他Hadoop相关系统工具(如Hive、Pig和HBase)所涉及到的系统管理问题
三、大数据时代
1、大数据技术难以copy,所以创造的价值很高
2、零售商
(1)了解客户需求、进行精准营销
(2)再推荐相关产品
(3)利用之前的购买行为产生的大数据进行分析,为下次的选择做推荐
(4)预测未来
3、分析数据是为了做决策而准备
如
(1)那些时间段什么商品卖的最好
(2)哪些商品关联在一起卖的最好
(3)哪些门店卖的商品最好
四、当前
1、2大雄:阿里、腾讯
2、3帅:百度、小米、京东
3、4杰:58+赶集、滴滴+快滴、去哪儿+携程、网易+360+唯品会
五、去哪儿的商业价值
1、怎样为公司赚钱?
2、怎样为公司省钱?
3、How
(1)怎样告诉老板这个钱值得投资
4、搭建平台
革新业务 大数据优化业务流程
^
|
|
监控业务 开发报表系统
^
|
|
整合数据 数据中心
^
|
|
搭建平台 大数据平台
注:Flume用于搜集日志数据(数据库、服务器等日志)
5、去哪儿基于2个维度进行分析
(1)顾客维度
(2)订单维度
6、升级Hadoop时遇到的问题
懂业务、BRI、出报表、大概有400多个模块的处理
7、大数据平台选用的原则
(1)够用原则 ----------》若每天只有小于1TB的数据,那么10台服务器的节点集群即可
(2)主流原则 ----------》技术成熟且BAT公司都用,能保证安全
(3)可扩展原则&有剩余-----------》考虑公司2到3年的发展
(4)低成本原则 -----------》考虑节约成本
8、遇到的问题
(1)、Flume的2个Bug
文件打开后不能关闭并且占用内存
(2)、各种业务线为集群资源分配二打架
(3)、兼容性问题:以后升级时一定要保留旧版本
注:
目前有10台机器 9台(64G) + 1台(256G)
问题:9台常常cpu使用率达到90%以上
(1)业务高峰 -------------------》分散队列
(2)限制内存 --------------------》限制内存使用量
9、业务收集数据
(1)保证数据完整 -----便于精准分析
(2)数据逻辑 ------集中+梳理
(3)数据共享 ------机票+酒店+火车票+***
(4)数据实时性 ------kafa 、 storm、spark技术保证计算的实时性,1小时内
10、案例:All---In---One系统
(1)数据库
mysql +oracle+ sql server +pg
(2)技术
flume收集日志
使用从库
缺点:延时、耗资源,所以不用
HBase处理
常选用的方法,因为成本小、不耗资源。
11、去哪儿的理念
消费者第一
客户第二
去哪儿第三
12、提供用户画像需要考虑
(1)基本属性
(2)购买能力
(3)行为特征
(4)心理特征
(5)兴趣爱好
关键是:**敏感度
13、怎样判断用户的工作类型
(1)GPS合作
(2)发票
作用:了解顾客想要的服务态度!服务态度是第一位!
用户画像:
姓名---------》 《---------------------------爱好
敏感度-------》 用户 《---------------------------投诉
14、如何降低投诉、提升服务质量?
(1)把最紧急的资源用于解决最着急的问题
大数据分析获取到拔打电话10次以上的用户,依次回拨
(2)合理分配资源,利用大数据处理技术做结果显示频用于决策
15、量子统计,如何帮助客户赚钱
例:
定制化产品
+ --------------定向直达----------->> 有实际需求的用户
服务
四、互动
1、如何确定平台节点的数量为10个
如果企业是刚起步,而且数据量比较小,但是可能过了2年后会增加,那么选用Hadoop的最小节点数是10
2、如何合作
需要关系、搞定高层就能搞定问题(原因:决策在于高层,这要靠ppt的实际暂时以及口才)、贵阳大数据交易中心
3、Hadoop和spark
(1)spark ----》下一代基于内存,性能好 速度快 spark偏于管理和分配 2016年的头等大戏是spark
(2)hadoop---》存储+计算
*****hadoop和spark必然要一起合作才能共赢?
4、storm和kafka技术
举例:计算有效的点击次数,爬虫技术
如,同一个Ip在1s内点击了60次,这是人工不可能做到的
storm与spark比较
storm:实时性好,但是吞吐量小,处理时间100ms内
spark:实时性不好,但是吞吐量大,处理时间500ms内
5、银行互联网金融业面临问题
(1)创新
(2)成本
(1)Cloudera 25%
(2)Hortonworks 15%
(3)Others 20%
加起来并不是100%
二、预计到2016年数据分析有1600万的缺口
认证 数据分析师、大数据架构师
三、Cloudera考试,获得Hadoop生态系统全方位的体验
1、具备基本Linux系统管理经验
2、MapReduce和HDFS的内置及如何搭建Hadoop框架
3、搭建Hadoop集群所需要考虑的网络因素
4、通过合适的集群配置和部署集成系统与数据中心的硬件
5、如何利用Hadoop配置选项进行系统性能的调优
6、如何使用Flume加载动态生成文件及使用Sqoop连接关系数据库
7、配置FairScheduler为集群多用户提供服务级别协议
8、为集群安装和实施基Kerberos的安全性
9、Hadoop集群维护和监控
10、排错,诊断,调优和解决Hadoop问题
11、使用其他Hadoop相关系统工具(如Hive、Pig和HBase)所涉及到的系统管理问题
三、大数据时代
1、大数据技术难以copy,所以创造的价值很高
2、零售商
(1)了解客户需求、进行精准营销
(2)再推荐相关产品
(3)利用之前的购买行为产生的大数据进行分析,为下次的选择做推荐
(4)预测未来
3、分析数据是为了做决策而准备
如
(1)那些时间段什么商品卖的最好
(2)哪些商品关联在一起卖的最好
(3)哪些门店卖的商品最好
四、当前
1、2大雄:阿里、腾讯
2、3帅:百度、小米、京东
3、4杰:58+赶集、滴滴+快滴、去哪儿+携程、网易+360+唯品会
五、去哪儿的商业价值
1、怎样为公司赚钱?
2、怎样为公司省钱?
3、How
(1)怎样告诉老板这个钱值得投资
4、搭建平台
革新业务 大数据优化业务流程
^
|
|
监控业务 开发报表系统
^
|
|
整合数据 数据中心
^
|
|
搭建平台 大数据平台
注:Flume用于搜集日志数据(数据库、服务器等日志)
5、去哪儿基于2个维度进行分析
(1)顾客维度
(2)订单维度
6、升级Hadoop时遇到的问题
懂业务、BRI、出报表、大概有400多个模块的处理
7、大数据平台选用的原则
(1)够用原则 ----------》若每天只有小于1TB的数据,那么10台服务器的节点集群即可
(2)主流原则 ----------》技术成熟且BAT公司都用,能保证安全
(3)可扩展原则&有剩余-----------》考虑公司2到3年的发展
(4)低成本原则 -----------》考虑节约成本
8、遇到的问题
(1)、Flume的2个Bug
文件打开后不能关闭并且占用内存
(2)、各种业务线为集群资源分配二打架
(3)、兼容性问题:以后升级时一定要保留旧版本
注:
目前有10台机器 9台(64G) + 1台(256G)
问题:9台常常cpu使用率达到90%以上
(1)业务高峰 -------------------》分散队列
(2)限制内存 --------------------》限制内存使用量
9、业务收集数据
(1)保证数据完整 -----便于精准分析
(2)数据逻辑 ------集中+梳理
(3)数据共享 ------机票+酒店+火车票+***
(4)数据实时性 ------kafa 、 storm、spark技术保证计算的实时性,1小时内
10、案例:All---In---One系统
(1)数据库
mysql +oracle+ sql server +pg
(2)技术
flume收集日志
使用从库
缺点:延时、耗资源,所以不用
HBase处理
常选用的方法,因为成本小、不耗资源。
11、去哪儿的理念
消费者第一
客户第二
去哪儿第三
12、提供用户画像需要考虑
(1)基本属性
(2)购买能力
(3)行为特征
(4)心理特征
(5)兴趣爱好
关键是:**敏感度
13、怎样判断用户的工作类型
(1)GPS合作
(2)发票
作用:了解顾客想要的服务态度!服务态度是第一位!
用户画像:
姓名---------》 《---------------------------爱好
敏感度-------》 用户 《---------------------------投诉
14、如何降低投诉、提升服务质量?
(1)把最紧急的资源用于解决最着急的问题
大数据分析获取到拔打电话10次以上的用户,依次回拨
(2)合理分配资源,利用大数据处理技术做结果显示频用于决策
15、量子统计,如何帮助客户赚钱
例:
定制化产品
+ --------------定向直达----------->> 有实际需求的用户
服务
四、互动
1、如何确定平台节点的数量为10个
如果企业是刚起步,而且数据量比较小,但是可能过了2年后会增加,那么选用Hadoop的最小节点数是10
2、如何合作
需要关系、搞定高层就能搞定问题(原因:决策在于高层,这要靠ppt的实际暂时以及口才)、贵阳大数据交易中心
3、Hadoop和spark
(1)spark ----》下一代基于内存,性能好 速度快 spark偏于管理和分配 2016年的头等大戏是spark
(2)hadoop---》存储+计算
*****hadoop和spark必然要一起合作才能共赢?
4、storm和kafka技术
举例:计算有效的点击次数,爬虫技术
如,同一个Ip在1s内点击了60次,这是人工不可能做到的
storm与spark比较
storm:实时性好,但是吞吐量小,处理时间100ms内
spark:实时性不好,但是吞吐量大,处理时间500ms内
5、银行互联网金融业面临问题
(1)创新
(2)成本
相关文章推荐
- 大数据的读写分离
- Unix Domain Socket– IPC通信机制
- The Longest Straight(二分,离散化)
- 2015福建省赛 fzoj The Longest Straight 2216 (二分&转换)好题
- 什么是大数据?
- 主流开源云计算软件大盘点,快拿走适合你的那款!
- 从大数据的应用谈如何成为大数据大师的历程
- Contains Duplicate II 找出数组中是否有重复元素,长度小于k
- 大数据下的日志-flume(二)高并发下的优化
- 数值优化(Numerical Optimization)学习系列-非线性约束最优化(Nonlinear Constrained Optimization)
- 福建省赛--Problem E The Longest Straight(标记+二分)
- 福建省赛--Problem E The Longest Straight(标记+二分)
- 数值优化(Numerical Optimization)学习系列-带约束最优化(Constrained Optimization)
- 数值优化(Numerical Optimization)学习系列-大规模无约束最优化(Large-Scale Unconstrained Optimization)
- 大数据、Hadoop和云计算
- 浅析pthread_cond_wait
- pthread_cond_signal和pthread_cond_wait简介
- 参观Speedy Cloud云计算公司有感
- AIDL服务(跨进程访问)
- 使用webhdfs