数据清洗小工具及技巧
2009-12-25 09:34
686 查看
在做data mining,很重要的一部是对数据进行清洗,由于数据量巨大,我是分段从数据库中取出数据存成文本格式,最后再将所有的文本合并成一个大的文件,
在文件合并的过程中,我用了一个小工具,
Txtunit.exe,短小精悍,
合并完之后会有一些空白行的出现,我们需要将这些空白行清除掉,做法参见
emeditor删除空行 - HOHO网页设计 - 51CTO技术博客
主要是使用了一个匹配的正则 ^[ \t]*\n
在文件合并的过程中,我用了一个小工具,
Txtunit.exe,短小精悍,
合并完之后会有一些空白行的出现,我们需要将这些空白行清除掉,做法参见
emeditor删除空行 - HOHO网页设计 - 51CTO技术博客
主要是使用了一个匹配的正则 ^[ \t]*\n
相关文章推荐
- Linux下数据传输(Socket)服务的测试工具及技巧
- etlpy: 并行爬虫和数据清洗工具(开源)
- OpenRefine 数据清洗工具
- SAS篇-数据清洗基本技巧
- 解析JSON数据的详细步骤以及偷懒技巧(使用第三方库GSON以及GsonFormat工具)
- Linux下数据传输(Socket)服务的测试工具及技巧
- 数据建模:分析与设计的工具和技巧 主要内容
- StreamSets数据操作平台(数据移动及数据清洗强大工具)-第二篇
- 数据清洗及OpenRefine工具
- cmd命令执行的数据清洗工具
- StreamSets数据操作平台(数据移动及数据清洗强大工具)-第一篇
- 在 Unix 系统上查找数据的最佳工具和技巧
- 在 Unix 系统上查找数据的最佳工具和技巧
- 数据清洗工具OpenRefine
- Java报表工具技巧:如何在报表软件Style Report中配置Oracle 10g数据源
- 数据清洗工具OpenRefine
- StreamSets数据操作平台(数据移动及数据清洗强大工具)-介绍
- 数据清洗工具kettle
- 大数据:应用于计量学的新技巧 - 简介以及第一章 用来处理大数据的工具
- 机器学习:数据清洗及工具OpenRefine