随机不重复抽取某文件中N行数据
2018-03-25 13:20
429 查看
前几天碰到需要从一个炒鸡大的文件里随机提取两百万行数据,而且不可以重复。从网上参考了各种代码拼拼凑凑完成了功能,研究完代码写了个通俗点的注释,希望可以帮助小白。(其实我就是个小白,哈哈)原理就是吧整个文件按行先存进内存里,然后要做的就是拿到两百万个不重复的数了。package function;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileReader;
import java.io.FileWriter;
import java.util.ArrayList;
/**
* 随机抽取文件中的N行数据
* @author Margin
*
*/
public class Abstract {
public void abstractTxt(String url) throws Exception{
ArrayList<String> list = new ArrayList<String>();
FileReader fr = new FileReader(url);
BufferedReader br = new BufferedReader(fr);
String temp = "";
while((temp=br.readLine()) != null){
temp=br.readLine();
list.add(temp);
}
//我需要的萝卜数量
int k = 2000000;
//萝卜地的萝卜数量
int n = list.size();
//来到了萝卜养殖场
int[] numbers = new int
;
for(int i = 0; i<numbers.length; i++){
numbers[i] =i + 1;
}
//掏出麻袋,准备装萝卜!!go go go
int[] result = new int[k];
for (int i = 0; i < result.length; i++) {
/*佛性选个坑*/
int r = (int)(Math.random() * n);
/*拔个萝卜放麻袋里*/
result[i] = numbers[r];
/*把最后的萝卜放到空坑里*/
numbers[r] = numbers[n-1];
/*把最后一个坑埋上*/
n--;
}
File f = new File("D:\\提取.txt");
FileWriter fileWriter = new FileWriter(f);
BufferedWriter bw = new BufferedWriter(fileWriter);
for(int i:result){
String string = list.get(i);
bw.write(string);
bw.newLine();
}
bw.flush();
bw.close();
fileWriter.close();
}
public static void main(String[] args) throws Exception {
new Abstract().abstractTxt("D:\\Margin.txt");
}
}
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileReader;
import java.io.FileWriter;
import java.util.ArrayList;
/**
* 随机抽取文件中的N行数据
* @author Margin
*
*/
public class Abstract {
public void abstractTxt(String url) throws Exception{
ArrayList<String> list = new ArrayList<String>();
FileReader fr = new FileReader(url);
BufferedReader br = new BufferedReader(fr);
String temp = "";
while((temp=br.readLine()) != null){
temp=br.readLine();
list.add(temp);
}
//我需要的萝卜数量
int k = 2000000;
//萝卜地的萝卜数量
int n = list.size();
//来到了萝卜养殖场
int[] numbers = new int
;
for(int i = 0; i<numbers.length; i++){
numbers[i] =i + 1;
}
//掏出麻袋,准备装萝卜!!go go go
int[] result = new int[k];
for (int i = 0; i < result.length; i++) {
/*佛性选个坑*/
int r = (int)(Math.random() * n);
/*拔个萝卜放麻袋里*/
result[i] = numbers[r];
/*把最后的萝卜放到空坑里*/
numbers[r] = numbers[n-1];
/*把最后一个坑埋上*/
n--;
}
File f = new File("D:\\提取.txt");
FileWriter fileWriter = new FileWriter(f);
BufferedWriter bw = new BufferedWriter(fileWriter);
for(int i:result){
String string = list.get(i);
bw.write(string);
bw.newLine();
}
bw.flush();
bw.close();
fileWriter.close();
}
public static void main(String[] args) throws Exception {
new Abstract().abstractTxt("D:\\Margin.txt");
}
}
相关文章推荐
- 随机抽取不重复的数据
- 随机读取文件中一行数据
- tp文件导入(去除重复数据)写日志,下载
- 关于从list或者数组中随机抽取部分不重复元素的问题探究
- 从数组中随机取n条不重复的数据
- 如何快速删除Linux文件中的重复数据行
- 【实践】js实现随机不重复抽取数组中元素
- 使用AMDU工具从无法MOUNT的DISKGROUP中抽取数据文件
- Kettle实现文本文件数据抽取方法 Kettle Txt To Database
- 随机抽取一定比例的fastq文件
- SQL 2005 随机数据的抽取
- flume 抽取图片文件数据写入到HDFS
- 数据存储(无数据库版)之三:多媒体文件抽取
- 一个文件里有10万个随机正整数,按照以下规则能组合出一份新的数据
- 随机生成大数据文件
- flash lite1.1 : 在以逗号分隔的一组字符串中随机抽取不重复的字符
- 将TXT文件导入MySQL,统计重复数据
- 随机抽取数据
- 45人中随机抽取25人不重复
- 快速生成10亿随机不重复数据代码(转)