大型文件去重
2015-07-23 14:04
267 查看
1.背景
面试的时候经常会被问到一个问题,大型的文件该如何去重。写一个python脚本是效率很差的策略。这里讲下如何用shell实现。2.流程
(1)文件切割
用split函数对于文件切割。split -l 10000 test.txt
-l是按照行切割,10000是每10000行切割成一份文件。切割完会在当前目录自动生成10000行一例的文件。
(2)去重
sort -u origin.txt -o output.txt
本文来自博客 “李博Garvin“
转载请标明出处:]http://blog.csdn.net/buptgshengod]
相关文章推荐
- C中malloc函数用法
- 利用反射,分析类
- 高德GCJ-02坐标转换
- ruby bundle信任goagent证书
- onsubmit提交前先验证(验证不通过阻止form提交)
- 控件丢失之谜
- 奖学金连载文章2
- WIN7中组件服务中的DCOM配置找不到Microsoft Excel应用程序的解决办法和
- java常用工具代码段
- 郑厂长系列故事——体检(4519)
- 黑马程序员-1.hashmap和hashtable的区别
- 《Unity中的Path对应各平台中的Path》
- Java培训之spring mvc
- iGriamce144使用教程
- MySQL: Starting MySQL….. ERROR! The server quit without updating PID file解决办法
- FileOutPutStream的使用
- Boost库中的Traits(is_float, is_class)
- jenkins 启动slave,出现com.sun.deploy.net.FailedDownloadException: Unable to load resource:
- 生成和解析XML格式文件
- HTTP状态码详解