您的位置:首页 > 其它

文本挖掘--将分词之后的文档转化为结构化的数据

2016-02-26 15:22 85 查看
将分词后的文本转化为数据结构化

1、使用关系型数据库

对文本数据的结构化都是最具挑战的,大量的文本需要进行词频的统计、特征提取和降维。其实难点的根本是我们在做词频统计时,需要对所有的文本文件进行遍历,建立一个包含所有词的字典,如果文件集非常庞大、词比较多,这个词典就会很大,而且在第二次遍历文件进行词频统计的过程中,内存、寻址、计算的开销都是十分巨大的。

它不需要很复杂的安装和配置,只要新建一个.txt 的文件,把文件后缀改为.db 就可以了,这个文件就可以作为SQLite 数据库的文件,而且所有的数据库管理文件都在里面

Java 有与 SQLite 连接的 ODBC。首先遍历所有文档,用 Map 对象建立一个包含所有词的字典,在 SQLite 中建立一个有这些词做字段的表。然后第二次遍历,对文本中的词频用 Map 对象进行统计,然后插入到数据库中。这样就从非结构化的文本转化为结构化的数据。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: