文本挖掘--将分词之后的文档转化为结构化的数据
2016-02-26 15:22
85 查看
将分词后的文本转化为数据结构化
1、使用关系型数据库
对文本数据的结构化都是最具挑战的,大量的文本需要进行词频的统计、特征提取和降维。其实难点的根本是我们在做词频统计时,需要对所有的文本文件进行遍历,建立一个包含所有词的字典,如果文件集非常庞大、词比较多,这个词典就会很大,而且在第二次遍历文件进行词频统计的过程中,内存、寻址、计算的开销都是十分巨大的。
它不需要很复杂的安装和配置,只要新建一个.txt 的文件,把文件后缀改为.db 就可以了,这个文件就可以作为SQLite 数据库的文件,而且所有的数据库管理文件都在里面
Java 有与 SQLite 连接的 ODBC。首先遍历所有文档,用 Map 对象建立一个包含所有词的字典,在 SQLite 中建立一个有这些词做字段的表。然后第二次遍历,对文本中的词频用 Map 对象进行统计,然后插入到数据库中。这样就从非结构化的文本转化为结构化的数据。
1、使用关系型数据库
对文本数据的结构化都是最具挑战的,大量的文本需要进行词频的统计、特征提取和降维。其实难点的根本是我们在做词频统计时,需要对所有的文本文件进行遍历,建立一个包含所有词的字典,如果文件集非常庞大、词比较多,这个词典就会很大,而且在第二次遍历文件进行词频统计的过程中,内存、寻址、计算的开销都是十分巨大的。
它不需要很复杂的安装和配置,只要新建一个.txt 的文件,把文件后缀改为.db 就可以了,这个文件就可以作为SQLite 数据库的文件,而且所有的数据库管理文件都在里面
Java 有与 SQLite 连接的 ODBC。首先遍历所有文档,用 Map 对象建立一个包含所有词的字典,在 SQLite 中建立一个有这些词做字段的表。然后第二次遍历,对文本中的词频用 Map 对象进行统计,然后插入到数据库中。这样就从非结构化的文本转化为结构化的数据。
相关文章推荐
- PO & POJO & BO & DTO & VO的区别
- python XPath
- javascript 立即执行函数的写法
- windows+apache+php+mysql快速搭建服务器环境
- 缩略图预览mini库
- SQL Server 查询表的记录数(3种方法,推荐第一种)--来自别人的博客
- 2016 hosts
- 数组初始化
- *** Collection <__NSArrayM: 0x7f9fb3c48bc0> was mutated while being enumerated问题
- codeforces 464c 465e
- ScrollView中嵌套 GridView 导致 ScrollView默认不停留在顶部的解决方案和分析
- 【C++11新特性】 C++11智能指针之shared_ptr
- nginx配置的详细信息
- 继承自UITableViewController 改为继承自viewController
- 世界上所有值得收藏的书单(持续更新)
- 怎么把pdf文件转换成jpg格式
- BitmapDrawable.mutate()
- 使用Junit4为mybatis的DAO类写测试用例
- java日志,需要知道的几件事(commons-logging,log4j,slf4j,logback)
- Unix系统下进程间通信方式及比较