将hdfs上多个文本数据生成mllib的训练集测试集
2016-09-23 10:40
423 查看
每个文本有一列数据,将选中的几个文本按要求合并为训练集供机器学习算法使用
将单个文本的hdfs路径设置为参数,提高程序的通用性,将所有文本都追加为一个数组,随后按规定切分读写,速度不是很慢。测试效果还可以
将单个文本的hdfs路径设置为参数,提高程序的通用性,将所有文本都追加为一个数组,随后按规定切分读写,速度不是很慢。测试效果还可以
package pack import java.io.{File, PrintWriter} import org.apache.spark.{SparkConf, SparkContext} import scala.sys.process._ import scala.collection.mutable.ArrayBuffer /** * Created by hemin on 2016/9/20. */ object ReadFile { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("mktxt").setMaster("lcoal") val sc = new SparkContext(conf) val paths = args getData(paths,sc) //sark程序必要的设置 } def getData(paths:Array[String],sc:SparkContext)= { val index = paths.length-1 //cancer the last arg val temp = ArrayBuffer[String]() val writer = new PrintWriter(new File("/home/iespark/zzh/test.txt")) val len=sc.textFile(paths(0)).filter(x=>(x!="")).collect().length //make all data to an array for(i<-0 to index-1){ temp ++= sc.textFile(paths(i)).filter(x=>(x!="")).collect() } //keep a certen length for(i<- 0 to len-2){ for(j<- 0 to index-1){ if(j==0){ writer.write(temp(i+len*j)+" ") }else{ writer.write(j+"::"+temp(i+len*j)+" ") } } writer.write("\n") } writer.close() val txt = sc.textFile("/home/iespark/zzh/test.txt") txt.repartition(1).saveAsTextFile("hdfs://hadoopadmin:9000/user/iespark/zzh/test") } }
相关文章推荐
- Spark中组件Mllib的学习14之从文本中读取带标签的数据,生成带label的向量
- 王家林最受欢迎的一站式云计算大数据和移动互联网解决方案课程 V1(20140809)之Hadoop企业级完整训练:Rocky的16堂课(HDFS&MapReduce&HBase&Hive&Zookee
- reduce端缓存数据过多出现FGC,导致reduce生成的数据无法写到hdfs
- 深度学习-CAFFE利用CIFAR10网络模型训练自己的图像数据获得模型-2生成图像库的均值文件
- word2vec 用于训练数据,生成模型
- 利用caffe训练cifar之训练数据集合生成leveldb
- 将大量有规律txt文本数据转换成xml格式,在导入excel,生成excel文件,在导入spass中,对数据进行分析
- 处理生成VOC的数据格式的test.txt train.txt trainval.txt val.txt 和SSD的imdb数据格式以及ssd的训练
- php 读取TXT文本生成 想要的数据格式
- caffe 实验中输入数据和label都是图片时,训练或测试数据列表train.txt生成方法(linux指令总结)
- 【用Python学习Caffe】3. 图像训练测试数据集LMDB的生成
- 【转】reduce端缓存数据过多出现FGC,导致reduce生成的数据无法写到hdfs
- Sunpinyin中SLM训练数据生成举例
- Flume采集数据到HDFS时,生成的文件中,开头信息有乱码
- AI学习之路(7): 生成训练数据
- Spark中组件Mllib的学习9之ALS训练的model来预测数据的准确率研究
- 标识训练数据,生成文件索引程序
- MapReduce将HDFS文本数据导入HBase中
- Spark中组件Mllib的学习7之ALS隐式转换训练的model来预测数据
- 生成caffe训练过程中需要的图片描述文本