e家数据挖掘_项目进度时间doc
2009-01-15 15:36
267 查看
规划2周具体安排
1.熟练使用clementine,包括抽取数据,建模,报表展现的使用2.时刻明确自己的目标和任务
3.使用clementine挖掘软件,针对e8项目进行训练,步骤:
第一阶段 商业理解,数据理解
深入理解e8相关数据,业务数据,EDM3.0
(1)从业务数据中挑选出需要分析的字段(客户信息,产品信息,费用信息),为什么要挑选这些字段;
第二阶段:数据准备 11.24-11.27
(2)用clementine从数据仓库中抽取这些字段所有数据;
怎么抽取,用什么文件格式,可以分两部走,先从数据仓库中抽取数据到本机txt,再用clementine将表txt导入;
(3)是否需要用filter过滤数据;
过滤的字段是不在数据挖掘中分析的字段,比如cust_id,PARTY_ID等;
输入:利用已有的数据仓库中的数据:
输出:一张完整的含数据挖掘需要的字段的所有记录;
第三阶段:建模 11.27-12.3
(4)设置数据的抽样,将其分为训练数据和检验数据;
检验数据用于后期的模型评估;
(5)根据主题模式设置输入输出字段,以及数据类型;
输入字段为数据挖掘要分析的数据字段,输出字段为购买e8套餐与否;标识(Y/N);
(6)建模,配置模型,需要解决2个重要问题:
A.选取最大信息增益的字段依次作为决策树模型的根节点,分支节点,依次类推;
B.在每个分支上设置合适的条件,最终形成模型;在设置条件前,可以量化属性的静态离散化方法,(可以考虑正态分布)进行聚类分解在这基础上设置合适条
第四阶段 模型评估
(7)模型评估:用检验数据来进行检验
输入:利用第一阶段得到的表进行数据挖掘
输出:建立数据挖掘模式,生成决策树
第五阶段:部署阶段 12.3-12.5
(8)输出报表:将各种组件与模型关联输出报表,提升图evaluation;
输入:第二阶段的输出模型
输出:生成各种组件,包括规则集和原始数据表;
(9)产生最终报告,陈述
相关文章推荐
- 痛批BI基础篇_深入理解数据挖掘_报告.doc
- 数据挖掘项目的特征和关键环节
- [转载]时间序列数据挖掘综述
- 数据挖掘开源项目立项
- 软件缺陷数据能够告诉你什么? 今天,老大把我喊到办公室叮嘱我,“提测之后每天都要关注项目里的 bug,知道吧?” 我说,“我知道,我每天肯定会及时跟进 Open Bug 的修复进度和 Fixed
- 2015百度校园招聘机器学习/数据挖掘工程师笔试题(笔试时间:2014-9-14,哈尔滨站)
- 支持中文文本的数据挖掘平台开源项目PyMining发布
- ★ 验证和规划可视化数据挖掘项目(VDMP)(一)
- Python数据挖掘,AI人工智能,机器学习,深度学习,高级项目实战
- 时间序列数据挖掘
- 结合这两年的项目经历谈谈对公安行业数据挖掘背后的意义
- 数据挖掘项目总结文档
- 数据挖掘之处理分类自变量与处理时间变量
- 数据挖掘开源项目立项
- Hadoop大数据零基础高端实战培训系列配文本挖掘项目
- 2017 Top 15 Python 数据科学类库;时间序列异常点检测;如何加入开源项目
- 估算项目的时间进度
- 【ML项目】基于网络爬虫和数据挖掘算法的web招聘数据分析(一)——数据获取与处理
- 估算项目的时间进度!
- python数据分析与挖掘项目实战记录