一些参考的方法
2013-04-13 12:37
127 查看
BBS 准实时舆情监测技术研究与实现
采用聚焦爬虫来实现数据采集,同时采用基于目标网页特征的方式来解决对抓取目标的描述,根据目标网页的特征,来制定相应的搜索策略。使用Scrapy 来开发数据采集程序。在定制爬虫时,可以定制两种类型的爬虫。一种是对于FireBird BBS类型的BBS,为所监测的每个BBS 单独定制一个爬虫爬取数据;另外一种是对于discuzz 论坛和phpwind 论坛,采用模板爬虫模式,将这两种论坛的不同版本都定制成模板爬虫,然后将所监测的BBS 按照模板匹配爬取数据。
树型结构只要通过相应的语法解析器,可方便查找各元素的相对位置。目前比较流行的html 解析工具是HtmlParser。
经过对分词器的开发者及相关论坛活跃度比较,同时从分词器的速度,算法、分词器的代码复杂度以及用是否能自定义词库等方面进行综合考虑,最后选择使用IK 分词器。
基于网络文本的评论挖掘分析
数据采集模块
主要通过Java爬虫实现,利用HtmlParser 库实现对网络服务器返回内容的解析。采用多线程网页爬虫技术,系统采用数据库的存储方式对这些数据集进行存储,将主题文本与评论文本分开存储,并对适当的字段建立索引。数据存储表结构。
数据过滤模块
主要包括数据预处理,无用语过滤以及相关度分析三个步骤。分词器使用的为中科院发布的ICTCLAS 分词器,无用语过滤具体做法为维护一个可动态增减的无用词汇集合,利用HashSet 进行存储。
目前评论的感情分析主要基于正负极性词汇字典进行,中文词汇字典目前主要通过人工手段采集。本模型主要基于极性词字典的方法来实现,原始的字典从台湾大学NTUSD数据源中提取,将搜狗词库以及同义词词林作为扩展数据源。像“高价格”,“高效率”这种,“高”在前者中表示负面极性,在后者中则表现为正面极性。分析这类词汇极性通常使用统计学习的技术来实现,构建动态语义词列表(DWList),极性词字典的扩容问题通常采用统计的方法。
基于中医本体的信息提取技术的研究与设计
本论文采用Jena 2.6.4软件包。Jena由HP实验开发是开放源代码的。主要用于语义网(Semantic Web)软件的开发。
利用词频和语义权重的算术平均数代表概念词汇的权重,代替了单纯的词频权重法。没有在中医本体中出现的词汇还是使用词频代表权重。本论文使用文档空间向量的余弦表示两个文档的相似度。
采用聚焦爬虫来实现数据采集,同时采用基于目标网页特征的方式来解决对抓取目标的描述,根据目标网页的特征,来制定相应的搜索策略。使用Scrapy 来开发数据采集程序。在定制爬虫时,可以定制两种类型的爬虫。一种是对于FireBird BBS类型的BBS,为所监测的每个BBS 单独定制一个爬虫爬取数据;另外一种是对于discuzz 论坛和phpwind 论坛,采用模板爬虫模式,将这两种论坛的不同版本都定制成模板爬虫,然后将所监测的BBS 按照模板匹配爬取数据。
树型结构只要通过相应的语法解析器,可方便查找各元素的相对位置。目前比较流行的html 解析工具是HtmlParser。
经过对分词器的开发者及相关论坛活跃度比较,同时从分词器的速度,算法、分词器的代码复杂度以及用是否能自定义词库等方面进行综合考虑,最后选择使用IK 分词器。
基于网络文本的评论挖掘分析
数据采集模块
主要通过Java爬虫实现,利用HtmlParser 库实现对网络服务器返回内容的解析。采用多线程网页爬虫技术,系统采用数据库的存储方式对这些数据集进行存储,将主题文本与评论文本分开存储,并对适当的字段建立索引。数据存储表结构。
数据过滤模块
主要包括数据预处理,无用语过滤以及相关度分析三个步骤。分词器使用的为中科院发布的ICTCLAS 分词器,无用语过滤具体做法为维护一个可动态增减的无用词汇集合,利用HashSet 进行存储。
目前评论的感情分析主要基于正负极性词汇字典进行,中文词汇字典目前主要通过人工手段采集。本模型主要基于极性词字典的方法来实现,原始的字典从台湾大学NTUSD数据源中提取,将搜狗词库以及同义词词林作为扩展数据源。像“高价格”,“高效率”这种,“高”在前者中表示负面极性,在后者中则表现为正面极性。分析这类词汇极性通常使用统计学习的技术来实现,构建动态语义词列表(DWList),极性词字典的扩容问题通常采用统计的方法。
基于中医本体的信息提取技术的研究与设计
本论文采用Jena 2.6.4软件包。Jena由HP实验开发是开放源代码的。主要用于语义网(Semantic Web)软件的开发。
利用词频和语义权重的算术平均数代表概念词汇的权重,代替了单纯的词频权重法。没有在中医本体中出现的词汇还是使用词频代表权重。本论文使用文档空间向量的余弦表示两个文档的相似度。
相关文章推荐
- 高效办公的一些方法参考
- jq封装ajax的一些方法(仅供自己参考)
- JavaScript中继承的一些示例方法与属性参考
- XCode7,打包上传的一些警告,及参考处理方法
- 一些数据方法的参考
- XCode7,打包上传的一些警告,及参考处理方法
- XCode7,打包上传的一些警告,及参考处理方法
- LIBSVM使用方法及参数设置 主要参考了一些博客以及自己使用经验。
- hotpatch的参考文档和一些加载驱动或者xx的方法
- JavaScript中继承的一些示例方法与属性参考
- XCode7,打包上传的一些警告,及参考处理方法
- .Net 开发中的一些可参考公用方法 C#
- 当数据库变慢时的解决方法 详细出处参考
- android canvas 常用的一些方法总结
- WinForm 窗体间传递数据的一些方法[转]
- UIView的一些基本方法理解:loadView、viewDidLoad、viewDidUnload、viewWillAppear、viewWillDisappear
- C# 参考之方法参数关键字:params、ref及out
- 学习mfc的一些方法
- android驱动一些外设调试记录_好的参考文章