周工作总结 一
2009-06-21 22:52
141 查看
1概述
本周主要是阅读了一些英文文献,加深对信息抽取工作的理解。在查阅的数十篇中文文献中,除了之前作为参考的一篇会议论文(经仔细推敲其算法很不严谨),比较接近我的任务目标同时叙述详尽的就只有文献[1],其主要内容是以树编辑距离算法为基础,进行网页聚类,模板抽取,数据提取的工作。我在刚开始阅读[1]时理解起来比较困难,同时对其算法的优劣性缺乏认识,之后仔细阅读了一些相关的英文论文,思路才逐渐明朗。
2 任务分析
我的任务是编写基于模板的全自动网页信息抽取系统,大体需要分以下几个步骤:网页整理,(网页分类),网页聚类,模板提取,数据记录提取。
2.1 网页整理
网页整理的目标是,将编码统一转化为UTF8,去除注释与<script>、<style>标签,修复不合法的Tag(主要是<br>),使其满足xhtml规范,最后得到完整的DOM树。
预计修复标签使用Jtidy,解析DOM树使用HtmlParser。需要对这两个开源库进行进一步研究。
值得欣慰的是通过观察可以看出绝大多数主流网站都采用XHTML规范编写,同时也发现有个别网站没有严格遵守。
2.2 网页分类
网页分类主要是辨别主题类页面和导航类页面。后者不做处理。可以考虑通过比较超链接内的Text占整篇文档中Text比重来辨别。
这部分工作可暂时不做。
2.3 网页聚类
之前这一部分一直令人头痛。一要考虑聚类算法的时间复杂度,二要考虑相似性比较的时间复杂度,三要考虑模板的动态更新。
文献[1]对BRICH算法和CURE算法进行了比较,提出了利用平均距离的类CURE算法。[6]只是简单地指出利用自底向上的层次聚类法。还有个别文献使用K-means方法。虽然对这些方法的具体算法不熟悉,但是据了解,它们的时间复杂度均超过O(N^2)。还有一些文献没有考虑聚类的问题,默认输入为同模板页面。
在相似性比较方面,几种类树编辑距离算法([1],[5],[6],[7])占据主流,缺点是时间复杂度为O(N1*N2)。也有个别文献采用基于标签的向量模型,并计算余弦值。这种方式时间复杂度较低,但效果不够理想。
幸运的是,今天中午找到了一篇论文([8]),其对六种相似性比较方法,包括自顶向下的树编辑距离([6])、标签向量等与三种聚类方法进行了定量的实验。文献[3]也对几种相似性比较算法做了定量试验。最后可以得出结论是利用最小距离法进行聚类可以较好的满足要求。此外有几种相似性比较算法虽然进行聚类时性能出众,但是考虑到在模板提取时没有好的方案,所以我决定仍然采用文献[9]种的一种近似树编辑距离算法。同时文献[9]在模板的更新过程实质上也利用了最小距离法的思想。
2.4 模板提取
模板提取方面主要采用类似文献[9]的方式,同时增加文本数据比较的环节。首先,与[4],[5]类似,寻找页面中的重复子树(比如商品列表,搜索引擎返回页),并将其合并,形成初始wrapper。Wrapper的特点是包含?、*、N等通配符结点,比如重复的兄弟结点被合并为N结点,具体的数学定义参照[9]。之后的页面与wrapper比较相似性,认定为同模板页面后与初始wrapper合并,在提取过程中模板不断被更新。
2.5 记录提取
设定一个阀值n,一个模板至少由n个页面合并而成才进行抽取。抽取的记录分以下几类:单数据记录(通过相似页面的文本数据比较发现),多数据记录(由单页面重复子树合并发现),正文数据(重复<p>结点下的文本数据直接合并)。
3 本周阅读的文献
[1]Web信息自动抽取技术研究
[2]A Survey of Web Information Extraction Systems
[3]A short survey of document structure similarity algorithms[4]Mining Data Recods in Web Pages
[5]web data extraction based on partial tree alignment
[6]Automatic Web news extraction using tree edit distance
[7]Web Information Extraction by HTML Tree Edit Distance Matching
[8]Clustering Template Based Web Documents
[9]Joint Optimization of Wrapper Generation and Template Detection
[10]Using Clustering and Edit Distance Techniques for Automatic Web Data Extraction
[11]VIPS:a Vision-based Page Segmentation Algorithm
本周主要是阅读了一些英文文献,加深对信息抽取工作的理解。在查阅的数十篇中文文献中,除了之前作为参考的一篇会议论文(经仔细推敲其算法很不严谨),比较接近我的任务目标同时叙述详尽的就只有文献[1],其主要内容是以树编辑距离算法为基础,进行网页聚类,模板抽取,数据提取的工作。我在刚开始阅读[1]时理解起来比较困难,同时对其算法的优劣性缺乏认识,之后仔细阅读了一些相关的英文论文,思路才逐渐明朗。
2 任务分析
我的任务是编写基于模板的全自动网页信息抽取系统,大体需要分以下几个步骤:网页整理,(网页分类),网页聚类,模板提取,数据记录提取。
2.1 网页整理
网页整理的目标是,将编码统一转化为UTF8,去除注释与<script>、<style>标签,修复不合法的Tag(主要是<br>),使其满足xhtml规范,最后得到完整的DOM树。
预计修复标签使用Jtidy,解析DOM树使用HtmlParser。需要对这两个开源库进行进一步研究。
值得欣慰的是通过观察可以看出绝大多数主流网站都采用XHTML规范编写,同时也发现有个别网站没有严格遵守。
2.2 网页分类
网页分类主要是辨别主题类页面和导航类页面。后者不做处理。可以考虑通过比较超链接内的Text占整篇文档中Text比重来辨别。
这部分工作可暂时不做。
2.3 网页聚类
之前这一部分一直令人头痛。一要考虑聚类算法的时间复杂度,二要考虑相似性比较的时间复杂度,三要考虑模板的动态更新。
文献[1]对BRICH算法和CURE算法进行了比较,提出了利用平均距离的类CURE算法。[6]只是简单地指出利用自底向上的层次聚类法。还有个别文献使用K-means方法。虽然对这些方法的具体算法不熟悉,但是据了解,它们的时间复杂度均超过O(N^2)。还有一些文献没有考虑聚类的问题,默认输入为同模板页面。
在相似性比较方面,几种类树编辑距离算法([1],[5],[6],[7])占据主流,缺点是时间复杂度为O(N1*N2)。也有个别文献采用基于标签的向量模型,并计算余弦值。这种方式时间复杂度较低,但效果不够理想。
幸运的是,今天中午找到了一篇论文([8]),其对六种相似性比较方法,包括自顶向下的树编辑距离([6])、标签向量等与三种聚类方法进行了定量的实验。文献[3]也对几种相似性比较算法做了定量试验。最后可以得出结论是利用最小距离法进行聚类可以较好的满足要求。此外有几种相似性比较算法虽然进行聚类时性能出众,但是考虑到在模板提取时没有好的方案,所以我决定仍然采用文献[9]种的一种近似树编辑距离算法。同时文献[9]在模板的更新过程实质上也利用了最小距离法的思想。
2.4 模板提取
模板提取方面主要采用类似文献[9]的方式,同时增加文本数据比较的环节。首先,与[4],[5]类似,寻找页面中的重复子树(比如商品列表,搜索引擎返回页),并将其合并,形成初始wrapper。Wrapper的特点是包含?、*、N等通配符结点,比如重复的兄弟结点被合并为N结点,具体的数学定义参照[9]。之后的页面与wrapper比较相似性,认定为同模板页面后与初始wrapper合并,在提取过程中模板不断被更新。
2.5 记录提取
设定一个阀值n,一个模板至少由n个页面合并而成才进行抽取。抽取的记录分以下几类:单数据记录(通过相似页面的文本数据比较发现),多数据记录(由单页面重复子树合并发现),正文数据(重复<p>结点下的文本数据直接合并)。
3 本周阅读的文献
[1]Web信息自动抽取技术研究
[2]A Survey of Web Information Extraction Systems
[3]A short survey of document structure similarity algorithms[4]Mining Data Recods in Web Pages
[5]web data extraction based on partial tree alignment
[6]Automatic Web news extraction using tree edit distance
[7]Web Information Extraction by HTML Tree Edit Distance Matching
[8]Clustering Template Based Web Documents
[9]Joint Optimization of Wrapper Generation and Template Detection
[10]Using Clustering and Edit Distance Techniques for Automatic Web Data Extraction
[11]VIPS:a Vision-based Page Segmentation Algorithm
相关文章推荐
- 点我吧工作总结(技术篇) Velocity
- 工作一年之回顾总结展望
- 2015年3月17日工作总结
- 关于工作总结中的感悟
- 数据量增加以后的工作总结
- 2017/8/23工作总结
- 团队工作总结
- 2006年8.26"工作"总结
- 最近工作中的技术总结分享
- 2017年工作感悟及总结
- MyBatis 接收数据库中没有的字段(记一次工作总结)
- Android 系统App开发日常工作技巧总结
- 2015年3月18日工作总结
- 工作总结
- 工作记录之开发HRM项目总结
- 2012年末工作中遇到的问题总结及感悟
- ActiveReports工作总结2——数据源绑定
- 提高工作效率---js总结
- java 最近将工作中用到的工具总结——数字工具