您的位置:首页 > 其它

大型文件去重

2015-07-23 14:04 267 查看

1.背景

面试的时候经常会被问到一个问题,大型的文件该如何去重。写一个python脚本是效率很差的策略。这里讲下如何用shell实现。

2.流程

(1)文件切割

用split函数对于文件切割。

split -l 10000 test.txt


-l是按照行切割,10000是每10000行切割成一份文件。切割完会在当前目录自动生成10000行一例的文件。

(2)去重

sort -u origin.txt -o output.txt


本文来自博客 “李博Garvin“

转载请标明出处:]http://blog.csdn.net/buptgshengod]
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: