您的位置:首页 > 其它

数据清洗中遇到的问题

2011-02-28 09:57 369 查看
替换一列中的所有数据。

例如,这一列的数据为钱的大写表示,要将大写表示转换成数字,用来计算总值。但是,由于这列数据都是用户手填写的,所以格式比较杂乱,有“一千”、“壹仟”、“壹仟元”、“壹仟元整”、“1000元整”等等写法。考虑和实现方式如下:

1、创建一个数据库函数用来格式化这些数据,然后将结果更新到这一列。但是,完成过程中发现,由于数据格式比较复杂和对sql语法不熟悉,实现起来非常复杂。

2、将数据读出来,用java格式化这些数据,并且将格式化好的数据更新到数据库。实现过程中发现,首先面对问题域中存在的可能性太多,需要针对每种可能性出一种方案,并且不能确定方案是否完备。其次,就算方案完备,也不能直接就更新,因为这只是猜测,必须经过人工确定,才能完成更新。如果这样,时间花费就会比较多,有可能出现程序时间比直接修改数据长的问题。

所以针对这种问题,以后需要注意事项:

1、需要数据清洗时,如果数据量比较小(<1000条),则使用手动的方式进行清洗。

2、如果使用程序自动清洗,一定要经过用户确认这个环节。

3、程序中数据清洗条件,一定要是充分必要条件。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐