数据质量提升必达之路
2016-08-11 10:53
239 查看
随着数据量日益剧增,企业决策比以往更需要具备强大的信息管理和掌控能力,协助解决关键问题;若要提升企业竞争优势,必须随时掌握企业内的准确信息,如何去解决数据质量问题是一条必经之路。
纵观众多用户经常碰到的数据质量问题,概括归纳如下。
使用 IBM InfoSphere Information Analyzer 软件工具实现对数据进行全面分析,包括技术层面和业务层面,体现如下:
标准评估:为您数据源的结构、内容和质量建立一个全面、整体的认知。
数据规则:通过定制并不断地调整自定义数据质量规则来对您的数据进行更深入的质量验证,趋势预测和模式分析。
报告指标:通过对分析结果的鉴别、评估以及异常管理来限制数据质量的恶化,从而降低风险。
DataStage ETL工具进行技术层面处理,主要包括:数据格式标准化、数据裁剪,合并和转化等。
交付一致、准确的业务数据,提供可重用的信息服务;
无需编码,在数分钟内就可以构建并发布一个数据整合服务;
灵活的部署,支持多种协议和数据格式,能为各种类型的应用提供可重用的信息服务。
QualityStage数据清洗工具,按照业务要求进行数据规范化处理,对自由格式数据按照业务规则进行标准、匹配、去重复等处理。
通过数据调研可以揭示数据中的趋势和潜在异常,验证和发现数据字段中的业务规则,识别无效值、或默认值,在上下文环境中全面了解面向业务的数据语义。
标准化数据,将不同格式的数据转换成统一标准的格式,识别并改正无效值,标准化拼写和缩写格式。
利用业界领先的基于统计的概率性匹配算法识别一个或多个数据源之间的重复数据,建立不同记录间的数据联系。
根据重复数据交叉填充“最佳的”可用数据,保留“最佳”的信息创建一个“合并的”记录。
直观易用的图形化用户界面,与DataStage无缝整合。
对所有数据进行扫描, 发现数据中潜在的不规则和不一致;
定位不合法的值,残缺不全的值,发现未被记录下来的业务规则,进行数据清洗和转换;
实现企业的数据质量验证、监控,流程化管理和生产运行。
在全球,IBM已拥有大批采用该解决方案去实施数据治理项目,并取得成功。
更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>
纵观众多用户经常碰到的数据质量问题,概括归纳如下。
策略与思想
IBM公司针对数据质量问题,从计划、设计、部署和管理等方面,为用户提供了全面的、有效的、长久的战略手段和解决方案。调查研究
“没有调查研究,就没有发言权”,这是中国伟人毛泽东思想,也是指导我们对数据质量进行了解、分析和认知的原则。使用 IBM InfoSphere Information Analyzer 软件工具实现对数据进行全面分析,包括技术层面和业务层面,体现如下:
标准评估:为您数据源的结构、内容和质量建立一个全面、整体的认知。
数据规则:通过定制并不断地调整自定义数据质量规则来对您的数据进行更深入的质量验证,趋势预测和模式分析。
报告指标:通过对分析结果的鉴别、评估以及异常管理来限制数据质量的恶化,从而降低风险。
转换与变身
当全面了解清楚数据,明察秋毫后,有了依据就对“问题”数据进行大刀阔斧地转换,重点在使用DataStage ETL工具进行技术层面处理,主要包括:数据格式标准化、数据裁剪,合并和转化等。
交付一致、准确的业务数据,提供可重用的信息服务;
无需编码,在数分钟内就可以构建并发布一个数据整合服务;
灵活的部署,支持多种协议和数据格式,能为各种类型的应用提供可重用的信息服务。
清洗与提升
使用QualityStage数据清洗工具,按照业务要求进行数据规范化处理,对自由格式数据按照业务规则进行标准、匹配、去重复等处理。
通过数据调研可以揭示数据中的趋势和潜在异常,验证和发现数据字段中的业务规则,识别无效值、或默认值,在上下文环境中全面了解面向业务的数据语义。
标准化数据,将不同格式的数据转换成统一标准的格式,识别并改正无效值,标准化拼写和缩写格式。
利用业界领先的基于统计的概率性匹配算法识别一个或多个数据源之间的重复数据,建立不同记录间的数据联系。
根据重复数据交叉填充“最佳的”可用数据,保留“最佳”的信息创建一个“合并的”记录。
直观易用的图形化用户界面,与DataStage无缝整合。
实现目标
建立了业务数据质量问题分析和评估系统,作为制定数据质量控制流程的依据;对所有数据进行扫描, 发现数据中潜在的不规则和不一致;
定位不合法的值,残缺不全的值,发现未被记录下来的业务规则,进行数据清洗和转换;
实现企业的数据质量验证、监控,流程化管理和生产运行。
总结
数据质量提升是个“很大”的话题,涉及业务法规、技术手段和监管等多方面。IBM为其客户提供了能“脚踏实地”提升数据质量的解决方案,领先竞争对手,和开展更好业务。在全球,IBM已拥有大批采用该解决方案去实施数据治理项目,并取得成功。
更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>
相关文章推荐
- 学习prefuse
- 数据分析的3大作用:解决生活问题、降低被误导概率、职场发展需要
- 康诺云推出三款智能硬件产品,为健康管理业务搭建数据池
- MySQL中使用innobackupex、xtrabackup进行大数据的备份和还原教程
- 常用的js验证和数据处理总结
- 工作中比较实用的JavaScript验证和数据处理的干货(经典)
- JSON复杂数据处理之Json树形结构数据转Java对象并存储到数据库的实现
- php+ajax导入大数据时产生的问题处理
- 百万级别知乎用户数据抓取与分析之PHP开发
- PHP数学运算与数据处理实例分析
- C# 大数据导出word的假死报错的处理方法
- Python运用于数据分析的简单教程
- 用Python实现协同过滤的教程
- 在Python中使用NLTK库实现对词干的提取的教程
- Python利用多进程将大量数据放入有限内存的教程
- mongodb常遇到的错误。
- 详解BI/数据分析/数据挖掘/业务分析概念 7fe0
- Stack数据结构的特点后进先出的应用:大数据运算
- Spark机器学习(一) -- Machine Learning Library (MLlib)
- Spark机器学习(二) 局部向量 Local-- Data Types - MLlib