大数据--基本理论知识(1)
2016-01-28 16:35
239 查看
大数据时代的挑战与机遇
一、大数据具体定义 4V(volume variety value velocity)
大数据是一种新的思维方式;
--用数字化的方式和方法来提出问题,分析问题,解决问题;
二、哪些数据可供分析:
1.用户的行为数据(网页日志,行为日志);
2.用户的购买行为;
3.用户的评价(文字分析);
4.企业运营信息与财务信息;
5.百度,google等提供的公开数据也可供分析; …………淘宝魔方,TPI........
三、“同行”在做什么?
1.猿题库:通过人工智能算法对考点,考频和难度进行分析,基于大数据挖掘准确评估出用户当前的能力水平,做到的一对一的针对性出题;
2.coursera:学习曲线分析、知识网络分析、学员行为分析、欺诈分析、讲师评价;
3.GRE通过自适应考试更精确的评估考生水平;
四、我们可以用数据做什么?
◆记录
◆整理:数据不经过综合、整理、是没有意义的;ETL
◆汇总
◆统计:无论对人、公司,你的过去决定你的现在;现在决定未来;
◆预计
五、data lake 架构
OLTP systems ---数据池 ---数据仓库----使用
---数据仓库----使用
---数据仓库----使用
特点:
◆运行速度快
◆数据可以很大
◆并发量可以很大;
◆ 一般来说OLTP 系统是系统的入口
◆OLTP系统不适合做统计
( OLAP systems 一般用来做统计的系统 )
多维分析 基础: 数据立方体 Data Cube
数据仓库的模型 ---
◆多维模型;---即现有关系型数据库设计??
◆雪花模型;
六、数据挖掘与预测
◆线性回归 --BMI指数(身高体重计算健康指数)
◆分类 : 1. 决策分类算法
2. 神经网络分类算法 优点:适应能力强 缺点 :抽象
◆聚类:
◆时间序列分析:
七、大数据常用架构
1.hadoop (存放大数据)
--大数据底层架构
--提供大数据的存储(hdfs)和计算(mapreduce)功能
--为上层软件提供了接口
2.HBase(存少量数据)
--基于hadoop的nosql数据仓库
--列式存储,数据分析
3.Hive (提供使用sql的接口)
--使用sql来操作大数据,数据分析
4.Pig
--使用脚本来操作大数据
5.Mahout
--数据挖掘,机器学习
一、大数据具体定义 4V(volume variety value velocity)
大数据是一种新的思维方式;
--用数字化的方式和方法来提出问题,分析问题,解决问题;
二、哪些数据可供分析:
1.用户的行为数据(网页日志,行为日志);
2.用户的购买行为;
3.用户的评价(文字分析);
4.企业运营信息与财务信息;
5.百度,google等提供的公开数据也可供分析; …………淘宝魔方,TPI........
三、“同行”在做什么?
1.猿题库:通过人工智能算法对考点,考频和难度进行分析,基于大数据挖掘准确评估出用户当前的能力水平,做到的一对一的针对性出题;
2.coursera:学习曲线分析、知识网络分析、学员行为分析、欺诈分析、讲师评价;
3.GRE通过自适应考试更精确的评估考生水平;
四、我们可以用数据做什么?
◆记录
◆整理:数据不经过综合、整理、是没有意义的;ETL
◆汇总
◆统计:无论对人、公司,你的过去决定你的现在;现在决定未来;
◆预计
五、data lake 架构
OLTP systems ---数据池 ---数据仓库----使用
---数据仓库----使用
---数据仓库----使用
特点:
◆运行速度快
◆数据可以很大
◆并发量可以很大;
◆ 一般来说OLTP 系统是系统的入口
◆OLTP系统不适合做统计
( OLAP systems 一般用来做统计的系统 )
多维分析 基础: 数据立方体 Data Cube
数据仓库的模型 ---
◆多维模型;---即现有关系型数据库设计??
◆雪花模型;
六、数据挖掘与预测
◆线性回归 --BMI指数(身高体重计算健康指数)
◆分类 : 1. 决策分类算法
2. 神经网络分类算法 优点:适应能力强 缺点 :抽象
◆聚类:
◆时间序列分析:
七、大数据常用架构
1.hadoop (存放大数据)
--大数据底层架构
--提供大数据的存储(hdfs)和计算(mapreduce)功能
--为上层软件提供了接口
2.HBase(存少量数据)
--基于hadoop的nosql数据仓库
--列式存储,数据分析
3.Hive (提供使用sql的接口)
--使用sql来操作大数据,数据分析
4.Pig
--使用脚本来操作大数据
5.Mahout
--数据挖掘,机器学习
相关文章推荐
- LTP 源码分析-- testcases/kernel/containers
- 大数据--循序渐进的大数据(2)
- 云计算也分“层” 一句话读懂IaaS、PaaS、SaaS
- FATAL: DTM initialization: failure during startup recovery, retry failed, check segment status (cdb
- hdu4251The Famous ICPC Team Again【划分树入门题】
- StringUtils.containsOnly使用说明
- How to correctly read data when using epoll_wait
- C++——STL所有算法介绍 http://blog.csdn.net/shinehoo/article/details/5736155
- sql 查询大数据 常用 50列优化
- 关于baidu_tempalate 的使用
- HDFS-RAID
- 通用的contain函数
- Page Rendering - Main Frame and Impl Frame
- 大数据
- 物联网
- 面对谷歌围棋AI,人类最后的智力骄傲即将崩塌
- VS中更改栈和堆空间的大小http://blog.csdn.net/allenjiao/article/details/8516049
- Suricata源码阅读笔记:main()
- windows下绑定线程(进程)到指定的CPU核心 http://blog.csdn.net/beyond_cn/article/details/15813361
- 快速搭建大数据分析虚拟机