您的位置:首页 > 编程语言 > PHP开发

mahout读取nutch抓取数据后的文件

2011-08-01 20:23 405 查看
1.mahout seqdumper在读取data文件时,报少ParseText包,把这个包导进来后,就可以正确读取了

2.mahout seq2sparse转向量是关键,可这一步报类型转换错误,seq2sparse中输入文件的key-value是(Text,Text)类型,所以需要先转要将(ParseText,Text)转成(Text,Text)

 

seq2sparse(文本信息向量化)后产生的结果文件如下所示:

df-count 目录:保存着文本的频率信息
tf-vectors 目录:保存着以 TF 作为权值的文本向量
tfidf-vectors 目录:保存着以 TFIDF 作为权值的文本向量
tokenized-documents 目录:保存着分词过后的文本信息
wordcount 目录:保存着全局的词汇出现的次数
dictionary.file-0 目录:保存着这些文本的词汇表
frequcency-file-0 目录 : 保存着词汇表对应的频率信息。
在信息检索领域,TF-IDF 是对文本信息建模的最常用的方法。

转成向量文件后,运行mahout kmeans命令,参数如下所示:

  -i <input vectors directory> \

    -c <input clusters directory> \

    -o <output working directory> \

    -k <optional number of initial clusters to sample from input vectors> \

    -dm <DistanceMeasure> \

    -x <maximum number of iterations> \

    -cd <optional convergence delta. Default is 0.5> \

    -ow <overwrite output directory if present>

    -cl < points are to be clustered after iterations are completed>

    -xm <execution method: sequential or mapreduce>
注意: 当-k被指定的时候,-c目录下的所有聚类都将被重写,将从输入的数据向量中随机抽取-k个点作为初始聚类的中心。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  mapreduce input output