您的位置:首页 > 其它

e家数据挖掘_项目进度时间doc

2009-01-15 15:36 267 查看

规划2周具体安排

1.熟练使用clementine,包括抽取数据,建模,报表展现的使用
2.时刻明确自己的目标和任务
3.使用clementine挖掘软件,针对e8项目进行训练,步骤:

第一阶段 商业理解,数据理解
深入理解e8相关数据,业务数据,EDM3.0
(1)从业务数据中挑选出需要分析的字段(客户信息,产品信息,费用信息),为什么要挑选这些字段;

第二阶段:数据准备 11.24-11.27
(2)用clementine从数据仓库中抽取这些字段所有数据;
怎么抽取,用什么文件格式,可以分两部走,先从数据仓库中抽取数据到本机txt,再用clementine将表txt导入;
(3)是否需要用filter过滤数据;
过滤的字段是不在数据挖掘中分析的字段,比如cust_id,PARTY_ID等;
输入:利用已有的数据仓库中的数据:
输出:一张完整的含数据挖掘需要的字段的所有记录;

第三阶段:建模 11.27-12.3
(4)设置数据的抽样,将其分为训练数据和检验数据;
检验数据用于后期的模型评估;
(5)根据主题模式设置输入输出字段,以及数据类型;
输入字段为数据挖掘要分析的数据字段,输出字段为购买e8套餐与否;标识(Y/N);
(6)建模,配置模型,需要解决2个重要问题:
A.选取最大信息增益的字段依次作为决策树模型的根节点,分支节点,依次类推;
B.在每个分支上设置合适的条件,最终形成模型;在设置条件前,可以量化属性的静态离散化方法,(可以考虑正态分布)进行聚类分解在这基础上设置合适条

第四阶段 模型评估
(7)模型评估:用检验数据来进行检验
输入:利用第一阶段得到的表进行数据挖掘
输出:建立数据挖掘模式,生成决策树

第五阶段:部署阶段 12.3-12.5
(8)输出报表:将各种组件与模型关联输出报表,提升图evaluation;
输入:第二阶段的输出模型
输出:生成各种组件,包括规则集和原始数据表;
(9)产生最终报告,陈述
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: