与网页内容抽取相关的文献
2009-01-16 16:13
323 查看
网页内容抽取是指从网页中抽取大块内容。例如新闻正文抽取等。以下为一些相关的文献。
[1] Ziegler, C. & Skubacz, M. Content Extraction from News Pages Using Particle Swarm Optimization on Linguistic and Structural Features WI '07: Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence, IEEE Computer Society, 2007, 242-249
[2] Reis, D. C.; Golgher, P. B.; Silva, A. S. & Laender, A. F. Automatic web news extraction using tree edit distance WWW '04: Proceedings of the 13th international conference on World Wide Web, ACM, 2004, 502-511
[3] Gupta, S.; Kaiser, G.; Neistadt, D. & Grimm, P. DOM-based content extraction of HTML documents WWW '03: Proceedings of the 12th international conference on World Wide Web, ACM, 2003, 207-214
[4] Gupta, S.; Kaiser, G. E.; Grimm, P.; Chiang, M. F. & Starren, J. Automating Content Extraction of HTML Documents World Wide Web, Kluwer Academic Publishers, 2005, 8, 179-224
[5] Gupta, S.; Kaiser, G. & Stolfo, S. Extracting context to improve accuracy for HTML content extraction WWW '05: Special interest tracks and posters of the 14th international conference on World Wide Web, ACM, 2005, 1114-1115
[6] Gupta, S.; Becker, H.; Kaiser, G. & Stolfo, S. Verifying genre-based clustering approach to content extraction WWW '06: Proceedings of the 15th international conference on World Wide Web, ACM, 2006, 875-876
[7] Gibson, J.; Wellner, B. & Lubar, S. Adaptive web-page content identification WIDM '07: Proceedings of the 9th annual ACM international workshop on Web information and data management, ACM, 2007, 105-112
[8] Lin, S. & Ho, J. Discovering informative content blocks from Web documents KDD '02: Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, ACM, 2002, 588-593
[9] Debnath, S.; Mitra, P. & Giles, C. L. Automatic extraction of informative blocks from webpages SAC '05: Proceedings of the 2005 ACM symposium on Applied computing, ACM, 2005, 1722-1726
[10] 王琦, 唐世渭, 杨冬青, 王腾蛟. 基于DOM 的网页主题信息自动提取. 计算机研究与发展, 2004年第41卷10期.
[11] 胡国平, 张巍, 王仁华. 基于双层决策的新闻网页正文精确抽取. 中文信息学报, 2006年第20卷06期.
[12] 孙承杰, 关毅. 基于统计的网页正文信息抽取方法的研究. 中文信息学报, 2004年第18卷05期.
[13] 黄文蓓, 杨静, 顾君忠. 基于分块的网页正文信息提取算法研究. 计算机应用, 2007 年第27卷.
[14] 赵欣欣, 索红光, 刘玉树. 基于标记窗的网页正文信息提取方法. 计算机应用研究, 2007年第24卷03期.
[15] 赵文, 唐建雄, 高庆锋. 基于统计的中文网页正文抽取的研究. 电脑知识与技术, 2008年第1卷1期.
[1] Ziegler, C. & Skubacz, M. Content Extraction from News Pages Using Particle Swarm Optimization on Linguistic and Structural Features WI '07: Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence, IEEE Computer Society, 2007, 242-249
[2] Reis, D. C.; Golgher, P. B.; Silva, A. S. & Laender, A. F. Automatic web news extraction using tree edit distance WWW '04: Proceedings of the 13th international conference on World Wide Web, ACM, 2004, 502-511
[3] Gupta, S.; Kaiser, G.; Neistadt, D. & Grimm, P. DOM-based content extraction of HTML documents WWW '03: Proceedings of the 12th international conference on World Wide Web, ACM, 2003, 207-214
[4] Gupta, S.; Kaiser, G. E.; Grimm, P.; Chiang, M. F. & Starren, J. Automating Content Extraction of HTML Documents World Wide Web, Kluwer Academic Publishers, 2005, 8, 179-224
[5] Gupta, S.; Kaiser, G. & Stolfo, S. Extracting context to improve accuracy for HTML content extraction WWW '05: Special interest tracks and posters of the 14th international conference on World Wide Web, ACM, 2005, 1114-1115
[6] Gupta, S.; Becker, H.; Kaiser, G. & Stolfo, S. Verifying genre-based clustering approach to content extraction WWW '06: Proceedings of the 15th international conference on World Wide Web, ACM, 2006, 875-876
[7] Gibson, J.; Wellner, B. & Lubar, S. Adaptive web-page content identification WIDM '07: Proceedings of the 9th annual ACM international workshop on Web information and data management, ACM, 2007, 105-112
[8] Lin, S. & Ho, J. Discovering informative content blocks from Web documents KDD '02: Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, ACM, 2002, 588-593
[9] Debnath, S.; Mitra, P. & Giles, C. L. Automatic extraction of informative blocks from webpages SAC '05: Proceedings of the 2005 ACM symposium on Applied computing, ACM, 2005, 1722-1726
[10] 王琦, 唐世渭, 杨冬青, 王腾蛟. 基于DOM 的网页主题信息自动提取. 计算机研究与发展, 2004年第41卷10期.
[11] 胡国平, 张巍, 王仁华. 基于双层决策的新闻网页正文精确抽取. 中文信息学报, 2006年第20卷06期.
[12] 孙承杰, 关毅. 基于统计的网页正文信息抽取方法的研究. 中文信息学报, 2004年第18卷05期.
[13] 黄文蓓, 杨静, 顾君忠. 基于分块的网页正文信息提取算法研究. 计算机应用, 2007 年第27卷.
[14] 赵欣欣, 索红光, 刘玉树. 基于标记窗的网页正文信息提取方法. 计算机应用研究, 2007年第24卷03期.
[15] 赵文, 唐建雄, 高庆锋. 基于统计的中文网页正文抽取的研究. 电脑知识与技术, 2008年第1卷1期.
相关文章推荐
- 又完成一个网页抽取器(企业相关网页)--实现了网页要素,企业要素抽取,内容相关度,网页质量评分
- 使用 JTidy 协助抽取网页内容
- 寻找与网页内容相关的图片(三)网易新闻与qq空间的做法
- ASP.NET网页打印(只打印相关内容/自写功能)
- 使用JTidy抽取网页内容
- c# 正则表达式对网页进行有效内容抽取
- 【Python】提取网页正文内容的相关模块与技术
- 基于行块分布函数的通用网页正文内容抽取(带HTML格式)
- 使用 JTidy 协助抽取网页内容
- 第一天上午——HTML网页基础知识以及相关内容
- 寻找与网页内容相关的图片(一) 开放图谱计划
- 正则表达式抽取网页内容
- 利用HtmlParse抽取网页正文内容
- ASP.NET网页打印(只打印相关内容/自写功能)
- 图解“百度百科内容”网页爬虫制作的相关问题
- c# 正则表达式对网页进行有效内容抽取
- c# 正则表达式对网页进行有效内容抽取 | 何苦
- JTidy 抽取网页内容
- c# 正则表达式对网页进行有效内容抽取