您的位置:首页 > 大数据

大数据笔记-12.27海淀中关村

2015-12-27 22:56 218 查看
一、Hadoop部署,Hadoop之父------》Doug cutting

(1)Cloudera 25%

(2)Hortonworks 15%

(3)Others 20%

加起来并不是100%

二、预计到2016年数据分析有1600万的缺口

认证 数据分析师、大数据架构师

三、Cloudera考试,获得Hadoop生态系统全方位的体验

1、具备基本Linux系统管理经验

2、MapReduce和HDFS的内置及如何搭建Hadoop框架

3、搭建Hadoop集群所需要考虑的网络因素

4、通过合适的集群配置和部署集成系统与数据中心的硬件

5、如何利用Hadoop配置选项进行系统性能的调优

6、如何使用Flume加载动态生成文件及使用Sqoop连接关系数据库

7、配置FairScheduler为集群多用户提供服务级别协议

8、为集群安装和实施基Kerberos的安全性

9、Hadoop集群维护和监控

10、排错,诊断,调优和解决Hadoop问题

11、使用其他Hadoop相关系统工具(如Hive、Pig和HBase)所涉及到的系统管理问题

三、大数据时代

1、大数据技术难以copy,所以创造的价值很高

2、零售商

(1)了解客户需求、进行精准营销

(2)再推荐相关产品

(3)利用之前的购买行为产生的大数据进行分析,为下次的选择做推荐

(4)预测未来

3、分析数据是为了做决策而准备



(1)那些时间段什么商品卖的最好

(2)哪些商品关联在一起卖的最好

(3)哪些门店卖的商品最好

四、当前

1、2大雄:阿里、腾讯

2、3帅:百度、小米、京东

3、4杰:58+赶集、滴滴+快滴、去哪儿+携程、网易+360+唯品会

五、去哪儿的商业价值

1、怎样为公司赚钱?

2、怎样为公司省钱?

3、How

(1)怎样告诉老板这个钱值得投资

4、搭建平台

革新业务 大数据优化业务流程

^

|

|

监控业务 开发报表系统

^

|

|

整合数据 数据中心

^

|

|

搭建平台 大数据平台

注:Flume用于搜集日志数据(数据库、服务器等日志)

5、去哪儿基于2个维度进行分析

(1)顾客维度

(2)订单维度

6、升级Hadoop时遇到的问题

懂业务、BRI、出报表、大概有400多个模块的处理

7、大数据平台选用的原则

(1)够用原则 ----------》若每天只有小于1TB的数据,那么10台服务器的节点集群即可

(2)主流原则 ----------》技术成熟且BAT公司都用,能保证安全

(3)可扩展原则&有剩余-----------》考虑公司2到3年的发展

(4)低成本原则 -----------》考虑节约成本

8、遇到的问题

(1)、Flume的2个Bug

文件打开后不能关闭并且占用内存

(2)、各种业务线为集群资源分配二打架

(3)、兼容性问题:以后升级时一定要保留旧版本

注:

目前有10台机器 9台(64G) + 1台(256G)

问题:9台常常cpu使用率达到90%以上

(1)业务高峰 -------------------》分散队列

(2)限制内存 --------------------》限制内存使用量

9、业务收集数据

(1)保证数据完整 -----便于精准分析

(2)数据逻辑 ------集中+梳理

(3)数据共享 ------机票+酒店+火车票+***

(4)数据实时性 ------kafa 、 storm、spark技术保证计算的实时性,1小时内

10、案例:All---In---One系统

(1)数据库

mysql +oracle+ sql server +pg

(2)技术

flume收集日志

使用从库

缺点:延时、耗资源,所以不用

HBase处理

常选用的方法,因为成本小、不耗资源。

11、去哪儿的理念

消费者第一

客户第二

去哪儿第三

12、提供用户画像需要考虑

(1)基本属性

(2)购买能力

(3)行为特征

(4)心理特征

(5)兴趣爱好

关键是:**敏感度

13、怎样判断用户的工作类型

(1)GPS合作

(2)发票

作用:了解顾客想要的服务态度!服务态度是第一位!

用户画像:

姓名---------》 《---------------------------爱好

敏感度-------》 用户 《---------------------------投诉

14、如何降低投诉、提升服务质量?

(1)把最紧急的资源用于解决最着急的问题

大数据分析获取到拔打电话10次以上的用户,依次回拨

(2)合理分配资源,利用大数据处理技术做结果显示频用于决策

15、量子统计,如何帮助客户赚钱

例:

定制化产品

+ --------------定向直达----------->> 有实际需求的用户

服务

四、互动

1、如何确定平台节点的数量为10个

如果企业是刚起步,而且数据量比较小,但是可能过了2年后会增加,那么选用Hadoop的最小节点数是10

2、如何合作

需要关系、搞定高层就能搞定问题(原因:决策在于高层,这要靠ppt的实际暂时以及口才)、贵阳大数据交易中心

3、Hadoop和spark

(1)spark ----》下一代基于内存,性能好 速度快 spark偏于管理和分配 2016年的头等大戏是spark

(2)hadoop---》存储+计算

*****hadoop和spark必然要一起合作才能共赢?

4、storm和kafka技术

举例:计算有效的点击次数,爬虫技术

如,同一个Ip在1s内点击了60次,这是人工不可能做到的

storm与spark比较

storm:实时性好,但是吞吐量小,处理时间100ms内

spark:实时性不好,但是吞吐量大,处理时间500ms内

5、银行互联网金融业面临问题

(1)创新

(2)成本
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: