利用Weka转化英文文本数据
2014-09-29 09:12
225 查看
利用Weka转化英文文本数据需要用到两个工具:TextDirectoryToArff和TextDirectoryLoader。
TextDirectoryToArff是一个JAVA类(Class),它负责将一个目录文件中的文本数据转换到一个ARFF文件中。
TextDirectoryLoader是一个转换器(Converter),它是基于TextDirectoryToArff类的,并且处于weka.core.converters包中。
首先,转换之前,需要将文本数据集按照TextDirectoryLoader转换器所要求形式布局:一个文件夹自己命名(例如:20news),其中一类一个文件夹,文件夹名字是类标签,每类文件夹里一篇文档是一个文件。
其次,将文件夹(20news)放置在weka根目录下,利用Weka的命令行界面(Simple CLI)输入以下命令:
java weka.core.converters.TextDirectoryLoader -dir 20news > 20news.arff
之后会在Weka根目录下生成了一个20news.arff文件,这说明文本数据已经成功地转换成了Weka需要的ARFF文件。
从20news.arff文件内容可以发现20news文件夹下的子文件夹名变成了每个文档的类标记。
该方法对于中文文本数据不适用,生成的ARFF中的中文会变成乱码,需要修改Weka的源码才能实现对中文文本数据的处理。
TextDirectoryToArff是一个JAVA类(Class),它负责将一个目录文件中的文本数据转换到一个ARFF文件中。
TextDirectoryLoader是一个转换器(Converter),它是基于TextDirectoryToArff类的,并且处于weka.core.converters包中。
首先,转换之前,需要将文本数据集按照TextDirectoryLoader转换器所要求形式布局:一个文件夹自己命名(例如:20news),其中一类一个文件夹,文件夹名字是类标签,每类文件夹里一篇文档是一个文件。
其次,将文件夹(20news)放置在weka根目录下,利用Weka的命令行界面(Simple CLI)输入以下命令:
java weka.core.converters.TextDirectoryLoader -dir 20news > 20news.arff
之后会在Weka根目录下生成了一个20news.arff文件,这说明文本数据已经成功地转换成了Weka需要的ARFF文件。
从20news.arff文件内容可以发现20news文件夹下的子文件夹名变成了每个文档的类标记。
该方法对于中文文本数据不适用,生成的ARFF中的中文会变成乱码,需要修改Weka的源码才能实现对中文文本数据的处理。
相关文章推荐
- [WEKA]如何将英文文本数据集转换为ARFF格式
- 利用patrition树和哈希算法对英文文本分频
- Oracle利用SQL将clob字段数据转化为字符串
- 利用第三方库XML解析 (TBXML)转化成模型数据
- C++中利用vector来处理文本中保存的数据
- access中,有无将文本类型的数据格式转化成数值型的函数?(解决 order by 的非数字排序问题)
- 利用ArcGIS将经纬度数据转化成平面坐标数据
- access中,有无将文本类型的数据格式转化成数值型的函数?(解决 order by 的非数字排序问题)
- 文本挖掘--将分词之后的文档转化为结构化的数据
- 利用JQuery中的getJSON将文本文档中JSON串数据传到网页上
- Qt中把纯文本里的int型数据转化为int数组(矩阵)
- 利用反射机制从DB取数据转化为Entity的全过程
- 利用MATLAB将文本中的数据写入Excel
- mahout将文本数据转化成向量形式
- 如何将TXT或CSV数据导入到EXCEL中让长数字不会变成科学计数法,转化成文本
- 利用AJAX实现简单的用户登录程序(处理服务端返回的文本数据)
- 利用VS正则替换删除文本行首数据等字符
- 【SAS NOTES】将文本转化为数据格式 input()
- 利用Mxnet自带的工具,进行数据转化,读取图片文件
- 利用Shell脚本将MySQL表中的数据转化为json格式