Less.Html 示例三:与 WebClient 的配合使用,以抓取 CSDN 论坛内容为例
2017-06-27 12:46
295 查看
WebClient 是做内容采集经常会用到的类,提供了方便的获取网页内容的方法。但是获取到的是字符串类型,如果使用 Less.Html 解析成节点树,可以大大的加快开发的速度:
上面的代码以抓取 CSDN 的 asp.net 论坛为例,列出了帖子的列表,代码总共就这么几行。
css 选择器参数“table.child_forum tr td.title”就指定了帖子列表的标题,在循环的时候,调用了 remove 方法,这是因为标题里面有一个隐藏的元素,然后用 DOM 标准的 textContent 属性输出元素里面的文本内容就可以了。
本示例代码:GitHub
码云
运行结果:
WebClient client = new WebClient(); client.Encoding = Encoding.UTF8; string aspDotNet = client.DownloadString( "http://bbs.csdn.net/forums/ASPDotNET"); var q = HtmlParser.Query(aspDotNet); var title = q("table.child_forum tr td.title"); foreach (Element i in title) { q(i).find(".forum_link").remove(); this.WriteLine(i.textContent); }
上面的代码以抓取 CSDN 的 asp.net 论坛为例,列出了帖子的列表,代码总共就这么几行。
css 选择器参数“table.child_forum tr td.title”就指定了帖子列表的标题,在循环的时候,调用了 remove 方法,这是因为标题里面有一个隐藏的元素,然后用 DOM 标准的 textContent 属性输出元素里面的文本内容就可以了。
本示例代码:GitHub
码云
运行结果:
相关文章推荐
- Less.Html 示例四:与 WebBrowser 的配合使用,以抓取京东手机价格为例
- 使用Curl进行抓取远程内容时url中文编码问题示例探讨
- C#使用HtmlAgilityPack抓取糗事百科内容实例
- Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
- 使用HtmlAgilityPack实现简单的博客园主页内容抓取(2014-03-31)
- Less.Html 示例一:获取嵌套元素中的正确内容
- jsoup使用之抓取CSDN个人博客内容
- 使用jsoup抓取指定网站地址的class的html内容
- Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
- C#使用HtmlAgilityPack抓取糗事百科内容实例
- PHP使用DomDocument抓取HTML内容
- HttpUnit 使用示例 抓取网页内容
- 使用http原生包抓取RestAPI接口内容并解析为实体的示例
- Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
- 使用HtmlAgilityPack抓取html标签属性内容
- 【Python】使用python的tornado配合html页面示例
- Java的 jsoup使用之抓取CSDN个人博客内容
- 使用phpQuery 抓取HTML 页面内容
- 使用Curl进行抓取远程内容时url中文编码问题示例探讨
- 使用HAP抓取HTML网页内容实例