mahout读取nutch抓取数据后的文件
2011-08-01 20:23
405 查看
1.mahout seqdumper在读取data文件时,报少ParseText包,把这个包导进来后,就可以正确读取了
2.mahout seq2sparse转向量是关键,可这一步报类型转换错误,seq2sparse中输入文件的key-value是(Text,Text)类型,所以需要先转要将(ParseText,Text)转成(Text,Text)
seq2sparse(文本信息向量化)后产生的结果文件如下所示:
df-count 目录:保存着文本的频率信息
tf-vectors 目录:保存着以 TF 作为权值的文本向量
tfidf-vectors 目录:保存着以 TFIDF 作为权值的文本向量
tokenized-documents 目录:保存着分词过后的文本信息
wordcount 目录:保存着全局的词汇出现的次数
dictionary.file-0 目录:保存着这些文本的词汇表
frequcency-file-0 目录 : 保存着词汇表对应的频率信息。
在信息检索领域,TF-IDF 是对文本信息建模的最常用的方法。
转成向量文件后,运行mahout kmeans命令,参数如下所示:
-i <input vectors directory> \
-c <input clusters directory> \
-o <output working directory> \
-k <optional number of initial clusters to sample from input vectors> \
-dm <DistanceMeasure> \
-x <maximum number of iterations> \
-cd <optional convergence delta. Default is 0.5> \
-ow <overwrite output directory if present>
-cl < points are to be clustered after iterations are completed>
-xm <execution method: sequential or mapreduce>
注意: 当-k被指定的时候,-c目录下的所有聚类都将被重写,将从输入的数据向量中随机抽取-k个点作为初始聚类的中心。
2.mahout seq2sparse转向量是关键,可这一步报类型转换错误,seq2sparse中输入文件的key-value是(Text,Text)类型,所以需要先转要将(ParseText,Text)转成(Text,Text)
seq2sparse(文本信息向量化)后产生的结果文件如下所示:
df-count 目录:保存着文本的频率信息
tf-vectors 目录:保存着以 TF 作为权值的文本向量
tfidf-vectors 目录:保存着以 TFIDF 作为权值的文本向量
tokenized-documents 目录:保存着分词过后的文本信息
wordcount 目录:保存着全局的词汇出现的次数
dictionary.file-0 目录:保存着这些文本的词汇表
frequcency-file-0 目录 : 保存着词汇表对应的频率信息。
在信息检索领域,TF-IDF 是对文本信息建模的最常用的方法。
转成向量文件后,运行mahout kmeans命令,参数如下所示:
-i <input vectors directory> \
-c <input clusters directory> \
-o <output working directory> \
-k <optional number of initial clusters to sample from input vectors> \
-dm <DistanceMeasure> \
-x <maximum number of iterations> \
-cd <optional convergence delta. Default is 0.5> \
-ow <overwrite output directory if present>
-cl < points are to be clustered after iterations are completed>
-xm <execution method: sequential or mapreduce>
注意: 当-k被指定的时候,-c目录下的所有聚类都将被重写,将从输入的数据向量中随机抽取-k个点作为初始聚类的中心。
相关文章推荐
- 读取Nutch抓取文件中的Segments中Parse_Text的内容
- nutch抓取数据后生成的文件格式
- nutch抓取数据后生成的文件格式
- 流和文件:保存和读取字节级数据
- 使用Apache POI读取Excel文件,将读取的数据转换成json写入文本文件
- 笔记:读取sql文件,然后将数据批量插入数据库
- Java怎样从Excel文件中读取数据
- Python读取txt文件数据的方法(用于接口自动化参数化数据)
- JAVA读取txt文件中数据代码范例
- R文件下所有数据读取与文本字符处理
- VBA下弹框打开excel文件并读取数据
- Delphi向可执行文件EXE尾部写数据然后读取
- 读取大csv文件数据插入到MySql或者Oracle数据库通用处理
- 读取文件夹中的文件并修改数据库中的数据
- 在client程序中,从指定文件读取数据并发送给server程序
- 读取ini配置文件时,成员变量的内存数据被隐式修改了
- 读取配置文件中的数据
- 读取csv文件数据内容进行图形绘制(vc++描述)
- 转载--从XML文件中读取数据绑定到DropDownList
- SQL SERVER(openrowset函数)从文件(.dbf)读取数据并将数据作为行集返回