您的位置：首页 > 其它

Mahout学习二--kmeans实例

2015-07-26 18:12 218 查看

1，将数据转化为SequenceFile

hadoop fs -put input input_text

mahout seqdirectory -i input_text -o input_seq -c UTF8 -chunk 5

2，数据向量化

mahout seq2sparse -i input_seq -o input_vec --maxDFPercent 85 --namedVector

3，执行K-means聚类

mahout kmeans \

-i input_vec/tfidf-vectors/ \

-c output_clusterPoint \

-o output_kmeans \

-dm org.apache.mahout.common.distance.CosineDistanceMeasure

-x 10 -k 20 -ow --clustering

4，导出结果

mahout clusterdump \

-i output_kmeans/clusters-*-final \

-o clusterdump

-d input_vec/dictionary.file-0 \

-dt sequencefile -b 100 -n 20 --evaluete -dm org.apache.mahout.common.distance.CosineDistanceMeasure -sp 0

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

关于Posix的消息队列
数据A左移8位到数据B
谨慎！不在同一个函数时，其中参数不可以直接引用！
BZOJ 1053 反素数ant
c#利用regex获取字符串中汉字的个数
Veriog_Notes_Chapter 6
SecureCRT 连接本地linux虚拟机（二）
二叉树的先序，中序，后序遍历的非递归算法
poj 2777 线段树（区间染色）
虚拟机类加载机制
.net混淆、反编译工具调查
C# Winform应用程序占用内存较大解决方法整理（转）
【Struts2框架】第三节OGNL表达式-OGNL表达式例子2
VMware虚拟机上安装Oracle Linux5
两种线程：Runable与Thread区别详解
java的死锁学习
win10的独立存储
对MMU段式转换的理解
运算符的重载
hdu 4704 Sum||hdu 4869 Turn the pokers 费马小定理

新的分享

一次教科书级别的Redis高可用架构设计实践 - Redis
曾光：北京这次的毒株不像国内流行类型
从PRD文档到产品上线，有哪些问题需要解决？
vue3自定义指令的使用
Oracle SQL性能优化最常用的40条建议 - ORACLE
程序员翻车常见反应，你中枪了吗？ - 职场生涯
新鲜开源：基于Prometheus的企业监控平台设计与实现 - 运维
嵌入式软件开发之程序架构设计-任务调度
【Java面试】请简单说一下你对受检异常和非受检异常的理解
奇安信更新招股书：第一季亏损过5亿，齐向东持股38%
艾瑞咨询：2020年中国后智能厨房案例研究报告
艾瑞咨询：2020年中国人工智能+物流发展研究报告

章节导航