网络爬虫2----JSoup解析HTML
2016-12-23 14:10
267 查看
网络爬虫2----JSoup解析HTML什么是Jsoup?Jsoup是Java HTML解析器,用于处理真实世界的HTML的Java库。它提供了一个非常方便的API来提取操作数据。Jsoup类:Jsoup功能的核心访问连接点,该类的所有方法都是静态的。常用的方法有:connect(String url) 作用:对给定url创建一个新的连接parse(File in, String charsetName) 作用:解析文件的内容,返回Document对象该方法有多个重载,有兴趣的可以自己查看API,这里就不详细介绍了。示例:package com.ficle;import java.io.File;import java.io.IOException;import java.util.Iterator;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;public class JsoupDemo {public static void main(String[] args) throws IOException{myJsoup();}/*** @throws IOException*/public static void myJsoup() throws IOException{//构建文件File file = new File("src\\test.html");Document doc = Jsoup.parse(file,"UTF-8");Elements e = doc.getElementsByTag("p");//遍历元素for (Iterator<Element> iterator = e.iterator(); iterator.hasNext();) {Element element = iterator.next();String s = element.text();System.out.println(s);}}}
运行截图:
相关文章推荐
- Android基础学习总结(十三)——利用jsoup解析html实现网络爬虫
- 【使用JSOUP实现网络爬虫】解析一个HTML字符串
- 【使用JSOUP实现网络爬虫】解析一个HTML字符串
- 【使用JSOUP实现网络爬虫】入门:解析和遍历一个HTML文档
- 【使用JSOUP实现网络爬虫】入门:解析和遍历一个HTML文档
- 【网络爬虫】【java】微博爬虫(四):数据处理——jsoup工具解析html、dom4j读写xml
- 【使用JSOUP实现网络爬虫】解析一个body片断
- 网络爬虫之html获取和解析(Java)
- 【Java Utility】Jsoup网页爬虫工具--解析HTML语句片段【四】
- 【使用JSOUP实现网络爬虫】从元素抽取属性,文本和HTML
- 【解析HTML】HTML解析,网络爬虫
- java的jsoup介绍--java爬虫与java解析html
- 使用 Jsoup 爬虫解析 html 新闻的实例
- 【使用JSOUP实现网络爬虫】清理HTML-消除不受信任的html (来防止xss攻击)
- 【使用JSOUP实现网络爬虫】修改数据-设置一个元素的HTML内容
- Java爬虫入门简介(二) —— Jsoup解析HTML页面
- 【使用JSOUP实现网络爬虫】解析一个body片断
- 【使用JSOUP实现网络爬虫】从元素抽取属性,文本和HTML
- Java爬虫入门简介(二) —— Jsoup解析HTML页面
- C# 网络爬虫利器之Html Agility Pack如何快速实现解析Html