您的位置：首页 > 编程语言 > PHP开发

mahout读取nutch抓取数据后的文件

2011-08-01 20:23 405 查看

1.mahout seqdumper在读取data文件时，报少ParseText包，把这个包导进来后，就可以正确读取了

2.mahout seq2sparse转向量是关键，可这一步报类型转换错误，seq2sparse中输入文件的key-value是(Text,Text)类型，所以需要先转要将(ParseText，Text)转成(Text，Text)

seq2sparse(文本信息向量化)后产生的结果文件如下所示：

df-count 目录：保存着文本的频率信息
tf-vectors 目录：保存着以 TF 作为权值的文本向量
tfidf-vectors 目录：保存着以 TFIDF 作为权值的文本向量
tokenized-documents 目录：保存着分词过后的文本信息
wordcount 目录：保存着全局的词汇出现的次数
dictionary.file-0 目录：保存着这些文本的词汇表
frequcency-file-0 目录 : 保存着词汇表对应的频率信息。
在信息检索领域，TF-IDF 是对文本信息建模的最常用的方法。

转成向量文件后，运行mahout kmeans命令，参数如下所示：

-i <input vectors directory> \

    -c <input clusters directory> \

    -o <output working directory> \

    -k <optional number of initial clusters to sample from input vectors> \

    -dm <DistanceMeasure> \

    -x <maximum number of iterations> \

    -cd <optional convergence delta. Default is 0.5> \

    -ow <overwrite output directory if present>

    -cl < points are to be clustered after iterations are completed>

    -xm <execution method: sequential or mapreduce>
注意： 当-k被指定的时候，-c目录下的所有聚类都将被重写，将从输入的数据向量中随机抽取-k个点作为初始聚类的中心。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： mapreduce input output

相关文章推荐

新的分享

章节导航