您的位置：首页 > Web前端 > HTML

解析html和采集网页的神兵利器

2014-09-24 08:47 323 查看

HtmlAgilityPack是一个基于.Net的、第三方免费开源的微型类库，主要用于在服务器端解析html文档（在B/S结构的程序中客户端可以用Javascript解析html）。截止到本文发表时，HtmlAgilityPack的最新版本为1.4.0。下载地址：http://htmlagilitypack.codeplex.com/

下载后解压缩后有3个文件，这里只需要将其中的HtmlAgilityPack.dll（程序集）、HtmlAgilityPack.xml（文档，用于Visual Studio 2008中代码智能提示和帮助说明之用）引入解决方案中即可使用，无需安装任何东西，非常“绿色环保”。

在C#类文件开头引入using HtmlAgilityPack;就可以使用该命名空间下的类型了。实际使用中，几乎都是以HtmlDocument类为主线的，这一点非常类似于微软.net framework中的XmlDocument类。XmlDocument类是操作的是xml文档，而HtmlDocument类操作的是html文档（其实也可以操作xml文档），它们的操作方式都是基于Dom，所不同的是后者取消了诸如GetElementsByTagName这样的方法，强化了GetElementById方法（在HtmlDocument中可以直接使用，而XmlDocument则不可以）。HtmlAgilityPack中定位节点基本上都用Xpath表达式，Xpath表达式的参考文档可见：http://www.w3school.com.cn/xpath/xpath_syntax.asp

例如，我们要采集博客园首页推荐文章的标题，在ASP.NET中可以编写如下代码：

[csharp] view plain copy

HtmlWeb htmlWeb = new HtmlWeb();

HtmlDocument htmlDoc = htmlWeb.Load(@"http://www.cnblogs.com/");

HtmlNodeCollection anchors = htmlDoc.DocumentNode.SelectNodes(@"//a[@class='titlelnk']");

foreach (HtmlNode anchor in anchors)

Response.Write(anchor.InnerHtml + "<br/>");

Response.End();

这段代码将采集到的首页html静态文本解析成Dom节点树，然后用Xpath表达式获取整个文档中class属性值为titlelnk的所有a元素。获取节点最常用节点对象的两个方法：SelectNodes("xpath表达式")和SelectSingleNode("xpath表达式")，前者返回节点集合HtmlNodeCollection的一个实例；后者返回满足条件的第一个节点，类型为HtmlNode的一个实例。后面的Foreach循环输出每个a元素的内联文本。

通常情况下，HtmlAgilityPack比正则表达式解析html更加高效准确，这体现在开发效率和运行性能两方面。HtmlAgilityPack的灵活性也是非常好的。例如将上面代码中的foreach循环体改成Response.Write(anchor.OuterHtml + "<br/>");则输出的是超链接本身而非内联文本。甚至可以修改超链接本身：

[csharp] view plain copy

foreach (HtmlNode anchor in anchors)

{

anchor.Attributes.Add("style", "color:red");

Response.Write(anchor.OuterHtml + "<br/>");

}

这样运行后你看到的是红色的超链接。你可以几乎随心所欲地对HtmlAgilityPack解析生成的Dom节点树上的节点操作，就像你拥有一颗自己的圣诞树，可以随意对其修整剪裁。这也是正则方法无法相提并论的。HtmlAgilityPack对源文本的结构要求非常宽松，即使没有根元素也一样正常使用，这同要求非常严格的XmlDocument完全不同。熟练掌握HtmlAgilityPack解析html文档的关键在于熟悉Xpath表达式语法，好在Xpath的语法入门比较简单，只需花费数个小时基本就可满足大部分应用。依托于Dom高效而通用的结构，Xpath强大而简练的语法，HtmlAgilityPack真可以称为“解析html和采集网页的神兵利器”。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航