网页正文抽取演示(包含组件下载地址、原理说明文章地址)
2008-05-28 18:42
399 查看
演示地址如下:http://202.110.133.114/tsegment/webanalyer.aspx
属于早期作品,采用规则方法提出非正文内容,则认为留下的内容为正文。仅作简单技术演示之用,感谢TT同学提供的空间并帮我写的演示程序。
该功能已封装成.NET组件,可提供程序直接调用,近期提供下载。
可用于大家收集语料时候网页内容提取之用。
如对此组件有兴趣,请直接邮件至我MSN信箱,我正考虑采用新算法完善并编写多个语言版本,在这里先统计下人数
看看有没开发商业版本的必要,对于商业版本将采用块识别标记的方式只对一段标签或一个DOM节点进行标识,而不负责提取正文,由用户自行控制过滤或提取哪些类型数据.
目前能想到可能会用到的标识类型:导航条 广告 正文 正文标题 相关文章 版权信息 评论 如大家还有其他想到的类型,请告之
无法处理导航页,提取正文时也不考虑图片类文章及文章中的配图。
该组件内部算法主要应用了规则模型抽取,所有规则基本使用正则表达式实现,具体正则可参考我的BLOG上《正文抽取正则》以及《聊聊网页正文抽取》内容。
http://www.likeshow.net/article.asp?id=60
http://www.likeshow.net/article.asp?id=55
组件下载:
http://www.likeshow.net/article.asp?id=91
属于早期作品,采用规则方法提出非正文内容,则认为留下的内容为正文。仅作简单技术演示之用,感谢TT同学提供的空间并帮我写的演示程序。
该功能已封装成.NET组件,可提供程序直接调用,近期提供下载。
可用于大家收集语料时候网页内容提取之用。
如对此组件有兴趣,请直接邮件至我MSN信箱,我正考虑采用新算法完善并编写多个语言版本,在这里先统计下人数
看看有没开发商业版本的必要,对于商业版本将采用块识别标记的方式只对一段标签或一个DOM节点进行标识,而不负责提取正文,由用户自行控制过滤或提取哪些类型数据.
目前能想到可能会用到的标识类型:导航条 广告 正文 正文标题 相关文章 版权信息 评论 如大家还有其他想到的类型,请告之
无法处理导航页,提取正文时也不考虑图片类文章及文章中的配图。
该组件内部算法主要应用了规则模型抽取,所有规则基本使用正则表达式实现,具体正则可参考我的BLOG上《正文抽取正则》以及《聊聊网页正文抽取》内容。
http://www.likeshow.net/article.asp?id=60
http://www.likeshow.net/article.asp?id=55
组件下载:
http://www.likeshow.net/article.asp?id=91
相关文章推荐
- Firefox附加组件地址无法打开,OCSP回应包含过期信息无标题文章
- 网页正文抽取(包含提取图片)
- 好工具推荐--网页分析工具 httpwatch 网页开发不可或缺的辅助工具 提供httpwatch下载(包含破解)
- 安卓完成一个应用,用户可以根据自己输入的地址下载网络上的图片和网页信息
- AppCan 移动应用引擎开源说明和下载地址
- .有两个CIDR地址块208.128/11和208.130.28/22。是否有那一个地址块包含了另一个地址?如果有,请指出,并说明理由。
- 网页版电子表格控件tmlxSpreadsheet免费下载地址
- Eclipse常用插件汇总(带图示的使用说明及下载地址)
- Maya 2013下载地址 包含32位 64位 及Mac版
- 下载网页中代理的地址与端口的js脚本
- 《GPS应用程序设计》源代码下载地址和源码目录说明
- 完成一个应用,用户可以根据自己输入的地址下载网络上的图片和网页信息
- java resteasy restful webservice教程(六):实现文件下载功能实例文章来源:爱上123 原文地址:http://www.ishang123.com/jishubowen/
- 基于Ogre::Bites实现自己的GUI系统(4)--包含代码下载地址
- 图表组件FusionCharts介绍及免费下载地址
- 全版本Genymotion模拟器创建过程所需的.ova文件下载地址说明
- JR 精品文章 - eclipse插件大全介绍,以及下载地址
- SSH框架下载地址及说明介绍地址
- iOS 网址、链接、网页地址、下载链接等正则验证
- ASPJpeg 组件、JMail组件下载/说明