您的位置:首页 > 其它

Mahout学习二--kmeans实例

2015-07-26 18:12 218 查看
1,将数据转化为SequenceFile

hadoop fs -put input input_text

mahout seqdirectory -i input_text -o input_seq -c UTF8 -chunk 5

2,数据向量化

mahout seq2sparse -i input_seq -o input_vec --maxDFPercent 85 --namedVector

3,执行K-means聚类

mahout kmeans \

-i input_vec/tfidf-vectors/ \

-c output_clusterPoint \

-o output_kmeans \

-dm org.apache.mahout.common.distance.CosineDistanceMeasure

-x 10 -k 20 -ow --clustering

4,导出结果

mahout clusterdump \

-i output_kmeans/clusters-*-final \

-o clusterdump

-d input_vec/dictionary.file-0 \

-dt sequencefile -b 100 -n 20 --evaluete -dm org.apache.mahout.common.distance.CosineDistanceMeasure -sp 0
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: