使用HtmlAgilityPack批量抓取网页数据
2009-05-24 15:57
489 查看
相关软件点击下载
登录的处理。因为有些网页数据需要登陆后才能提取。这里要使用ieHTTPHeaders来提取登录时的提交信息。
抓取网页
HtmlAgilityPack.HtmlDocument htmlDoc;
if (!string.IsNullOrEmpty(登录URL))
else
ArrayList list = new ArrayList();
list.add("//table/tr[1]/td");
list.add("//table/tr[2]/td");
//获取循环的节点的xpath,比如://table/tr
HtmlNodeCollection repeatNodes = htmlDoc.DocumentNode.SelectNodes("//table/tr");
//循环节点
foreach (HtmlNode node in repeatNodes)
htmlWeb.DefaultEncoding = System.Text.Encoding.GetEncoding(strEncode);
登录的处理。因为有些网页数据需要登陆后才能提取。这里要使用ieHTTPHeaders来提取登录时的提交信息。
抓取网页
HtmlAgilityPack.HtmlDocument htmlDoc;
if (!string.IsNullOrEmpty(登录URL))
else
ArrayList list = new ArrayList();
list.add("//table/tr[1]/td");
list.add("//table/tr[2]/td");
//获取循环的节点的xpath,比如://table/tr
HtmlNodeCollection repeatNodes = htmlDoc.DocumentNode.SelectNodes("//table/tr");
//循环节点
foreach (HtmlNode node in repeatNodes)
htmlWeb.DefaultEncoding = System.Text.Encoding.GetEncoding(strEncode);
相关文章推荐
- 一个简单的使用python抓取网页中的水文数据的程序
- Jsoup简介——使用Java抓取网页数据
- 使用HtmlAgilityPack抓取网页数据
- 使用HtmlAgilityPack和ScrapySharp抓取网页数据遇到的几个问题解决方法——格式编码问题
- 小猪的Python学习之旅 —— 5.使用Selenium抓取JavaScript动态生成数据的网页
- php使用curl和正则表达式抓取网页数据示例
- 使用System.Text.RegularExpression中的API实现网页数据的抓取
- 使用JAVA抓取网页数据
- 使用HttpWebRequest与HttpWebResponse抓取网页数据
- Jsoup简介——使用Java抓取网页数据
- Jsoup简介——使用Java抓取网页数据
- Asp.net 使用正则和网络编程抓取网页数据(实用)
- 使用java开源工具httpClient及jsoup抓取解析网页数据
- 【.NET】使用HtmlAgilityPack抓取网页数据
- 使用node.js cheerio抓取网页数据
- 使用System.Text.RegularExpression中的API实现网页数据的抓取
- 使用HtmlAgilityPack批量抓取网页数据
- 浅谈如何使用python抓取网页中的动态数据
- 使用PHP进行网页数据抓取小结