Web风行者的设计方案与计划
2006-02-12 15:36
211 查看
去年(2005年)花了数月的时间写了一个Web Spider。主要集中于功能实现,线程模型,任务自动化,数据攫取方面。在两个月的运行测试中,改正了不少的bug。当时给这个程序起的名字叫"龙龙"(俺是兽族的嘛).龙龙的缺点是完全定制性的控制台程序,对不同的网页必须进行硬编码解析。于是想开发"龙龙2.0",加入规则系统和UI界面。前一阵比较忙,就停下了"龙龙"的开发。现在开始接续龙龙2.0,并为龙龙2.0起一个正式的名字:“Web风行者”。
“Web风行者”目标是开发一个易用的,可配置规则,可调试规则的html Web数据挖掘系统。规则部分原则上采用XQuery/XPath/XSLT近似的语法,但可能扩展这些语法,使其能够在更细粒度,能够集成文本挖掘,甚至在语义层面进行挖掘。
“Web风行者”主要考虑易用性和实用性。先将网页解析成XHtml格式,在根据规则从XHtml文件中解析出数据,进行持久化。其结构图初步设想如下:
Web风行者不开源,计划开发免费版,商用版和Web服务版三种版本。推出时间不定。反正本兽一直不闲着,一有时间就开发。
注:本来想用C#写的,但是.net这边没找到可用的开源XQuery实现。
“Web风行者”目标是开发一个易用的,可配置规则,可调试规则的html Web数据挖掘系统。规则部分原则上采用XQuery/XPath/XSLT近似的语法,但可能扩展这些语法,使其能够在更细粒度,能够集成文本挖掘,甚至在语义层面进行挖掘。
“Web风行者”主要考虑易用性和实用性。先将网页解析成XHtml格式,在根据规则从XHtml文件中解析出数据,进行持久化。其结构图初步设想如下:
Web风行者不开源,计划开发免费版,商用版和Web服务版三种版本。推出时间不定。反正本兽一直不闲着,一有时间就开发。
注:本来想用C#写的,但是.net这边没找到可用的开源XQuery实现。
相关文章推荐
- Web服务搜索与执行引擎(三)——系统设计方案
- Web服务搜索与执行引擎(三)——系统设计方案
- 使用Micrisoft.net设计方案 第三章Web表示模式 Web模式集群详细介绍 Page Cache(页面缓存)
- 高性能Web系统设计方案(初稿目录),支持者进
- 一个REST风格的URI设计方案[Blog Web Services]
- Web服务搜索与执行引擎——系统设计方案 及系统架构设计
- 使用Micrisoft.net设计方案 第三章Web表示模式 Web模式集群详细介绍 Page Cache(页面缓存)
- Web服务搜索与执行引擎(三)——系统设计方案
- WebMagic监控方案设计
- 计划格式——某大学学生实践项目方案设计
- 使用Micrisoft.net设计方案 第三章Web表示模式 Web模式集群详细介绍
- 使用Micrisoft.net设计方案 第三章Web表示模式 Web模式集群详细介绍 Intercepting Filter(截取筛选器)
- Web服务搜索与执行引擎(三)——系统设计方案
- WEB设计快速颜色搭配方案
- Web行业网站的快捷设计与开发技术方案比较
- 使用Micrisoft.net设计方案 第三章Web表示模式
- 提供ASP.NET Web 站点高级编程——提出问题-设计方案-解决方案 源码下载!
- 使用Micrisoft.net设计方案 第三章Web表示模式 Web模式集群详细介绍 PageController(页面控制器)
- 淡雅的WEB设计配色方案
- Web服务搜索与执行引擎(三)——系统设计方案