Mahout学习二--kmeans实例
2015-07-26 18:12
218 查看
1,将数据转化为SequenceFile
hadoop fs -put input input_text
mahout seqdirectory -i input_text -o input_seq -c UTF8 -chunk 5
2,数据向量化
mahout seq2sparse -i input_seq -o input_vec --maxDFPercent 85 --namedVector
3,执行K-means聚类
mahout kmeans \
-i input_vec/tfidf-vectors/ \
-c output_clusterPoint \
-o output_kmeans \
-dm org.apache.mahout.common.distance.CosineDistanceMeasure
-x 10 -k 20 -ow --clustering
4,导出结果
mahout clusterdump \
-i output_kmeans/clusters-*-final \
-o clusterdump
-d input_vec/dictionary.file-0 \
-dt sequencefile -b 100 -n 20 --evaluete -dm org.apache.mahout.common.distance.CosineDistanceMeasure -sp 0
hadoop fs -put input input_text
mahout seqdirectory -i input_text -o input_seq -c UTF8 -chunk 5
2,数据向量化
mahout seq2sparse -i input_seq -o input_vec --maxDFPercent 85 --namedVector
3,执行K-means聚类
mahout kmeans \
-i input_vec/tfidf-vectors/ \
-c output_clusterPoint \
-o output_kmeans \
-dm org.apache.mahout.common.distance.CosineDistanceMeasure
-x 10 -k 20 -ow --clustering
4,导出结果
mahout clusterdump \
-i output_kmeans/clusters-*-final \
-o clusterdump
-d input_vec/dictionary.file-0 \
-dt sequencefile -b 100 -n 20 --evaluete -dm org.apache.mahout.common.distance.CosineDistanceMeasure -sp 0
相关文章推荐
- 关于Posix的消息队列
- 数据A左移8位到数据B
- 谨慎 !不在同一个函数时,其中参数不可以直接引用!
- BZOJ 1053 反素数ant
- c#利用regex获取字符串中汉字的个数
- Veriog_Notes_Chapter 6
- SecureCRT 连接本地linux虚拟机(二)
- 二叉树的先序,中序,后序遍历的非递归算法
- poj 2777 线段树(区间染色)
- 虚拟机类加载机制
- .net混淆、反编译工具调查
- C# Winform应用程序占用内存较大解决方法整理(转)
- 【Struts2框架】第三节OGNL表达式-OGNL表达式例子2
- VMware虚拟机上安装Oracle Linux5
- 两种线程:Runable与Thread区别详解
- java的死锁学习
- win10的独立存储
- 对MMU段式转换的理解
- 运算符的重载
- hdu 4704 Sum||hdu 4869 Turn the pokers 费马小定理