数据分析(2016-01-23海淀区厂洼路)
2016-01-23 20:07
204 查看
CDA teacher1(以下涉及的词语和技术网上都有详细介绍,故不赘述)
数据分析语言:R+Python
一、第一部分(针对用户的分析)
1、最常见的关联度分析例子:Tanic号关联分析
2、目前使用语言:Python,原因是它的速度快,性能好,最关键的是“文本挖掘”的最强利器
3、在算法设计中,逻辑判断关键词比非逻辑判断要快。
4、常用推荐算法中会使用K-N算法,计算距离:d=1减去x的平方再开平方+1减去y的平方再开平方
5、目前java能做的python都能做到,但是python能做的更好。
二、第二部分(针对物的分析)
1、无监督的聚类在企业中使用最多,在聚类分析时最好不要使用K-miss算法!
2、数据分析关键在于要有思想,比如函数映射、统计学(正态分布、回归方程、中位数等)等数学思想
3、python的开发,常用开发工具是pycharm,点击打开链接,别用R工具,速度慢而且在集群环境中会造成问题
4、大数据分析中,有一个最关键的问题:有效数据的采集,比如统计所有军舰上的人数、船体受损程度、剩余的食物等;
需要用到传感器技术来解决!
5、学习python只需要1天时间,但是要深入则需要至少1周时间
永红科技 符2
一、数据分析准备
1、洗脏数据
2、表关联设计
二、探索分析
1、数据模型、数学模型
2、找到运维维度和指标调整
三、深度分析
1、以算法、分析、结合业务给销售提供决策的建议
2、包含:特征、规律和预测
四、并发优化
1、时间分配使得空闲时间去做一些提前该做的事
2、分布式架构和使用列存储(如db2的特点)
3、分类、分区、打标签
五、获取数据的方法
1、关系数据库
使用Jdbc和Odbc(介绍见http://baike.baidu.com/view/592959.htm?fromtitle=ODBC&fromid=759553&type=syn)传输
2、非关系数据库
使用接口传输
teacher3
数据驱动运营(针对网页注册到成功的数据的流程)
一、测试版www.growingo.com
二、通过分析数据,找出问题后,做出优化和改进(即行动)
1、优化网页,即简化操作,将一次操作改为多次操作
2、采用极端点分析,注意时间节点
三、步骤
1、分析数据
2、找关键问题
3、定义核心指标
4、带着假设开始去验证
5、继续验证和实施
数据分析语言:R+Python
一、第一部分(针对用户的分析)
1、最常见的关联度分析例子:Tanic号关联分析
2、目前使用语言:Python,原因是它的速度快,性能好,最关键的是“文本挖掘”的最强利器
3、在算法设计中,逻辑判断关键词比非逻辑判断要快。
4、常用推荐算法中会使用K-N算法,计算距离:d=1减去x的平方再开平方+1减去y的平方再开平方
5、目前java能做的python都能做到,但是python能做的更好。
二、第二部分(针对物的分析)
1、无监督的聚类在企业中使用最多,在聚类分析时最好不要使用K-miss算法!
2、数据分析关键在于要有思想,比如函数映射、统计学(正态分布、回归方程、中位数等)等数学思想
3、python的开发,常用开发工具是pycharm,点击打开链接,别用R工具,速度慢而且在集群环境中会造成问题
4、大数据分析中,有一个最关键的问题:有效数据的采集,比如统计所有军舰上的人数、船体受损程度、剩余的食物等;
需要用到传感器技术来解决!
5、学习python只需要1天时间,但是要深入则需要至少1周时间
永红科技 符2
一、数据分析准备
1、洗脏数据
2、表关联设计
二、探索分析
1、数据模型、数学模型
2、找到运维维度和指标调整
三、深度分析
1、以算法、分析、结合业务给销售提供决策的建议
2、包含:特征、规律和预测
四、并发优化
1、时间分配使得空闲时间去做一些提前该做的事
2、分布式架构和使用列存储(如db2的特点)
3、分类、分区、打标签
五、获取数据的方法
1、关系数据库
使用Jdbc和Odbc(介绍见http://baike.baidu.com/view/592959.htm?fromtitle=ODBC&fromid=759553&type=syn)传输
2、非关系数据库
使用接口传输
teacher3
数据驱动运营(针对网页注册到成功的数据的流程)
一、测试版www.growingo.com
二、通过分析数据,找出问题后,做出优化和改进(即行动)
1、优化网页,即简化操作,将一次操作改为多次操作
2、采用极端点分析,注意时间节点
三、步骤
1、分析数据
2、找关键问题
3、定义核心指标
4、带着假设开始去验证
5、继续验证和实施
相关文章推荐
- 在JS方法中返回多个值的三种方法
- leetcode之 Merge Sorted Array
- linux下的svn使用
- mappingResources和mappingLocations
- leetcode--Pascal's Triangle && ii
- 数据建模语言Information Engineering - IE模型
- 算法笔记——【动态规划】最长公共子序列问题(LCS)
- struts2 结合extjs实现的一个登录实例
- 胖子哥的大数据之路(13)破题,从数据整合开始
- Preface
- IIS 错误:无法在<fastCGI>应用程序配置中找到<handler> scriptProcessor
- 初遇大学生活的求知者
- Debug模式下的数组越界访问结果分析
- 摄影构图的几种基本方法
- 最简单的PC机串口通信程序
- leetcode--search in rotated sorted arry
- 大一上总结及大一下目标
- STL数字字符串转换为数字
- activiti(二)将activiti集成到项目中
- Project Euler 109 :Darts 飞镖