您的位置:首页 > 理论基础 > 计算机网络

网络爬虫2----JSoup解析HTML

2016-12-23 14:10 267 查看
网络爬虫2----JSoup解析HTML什么是Jsoup?Jsoup是Java HTML解析器,用于处理真实世界的HTML的Java库。它提供了一个非常方便的API来提取操作数据。Jsoup类:Jsoup功能的核心访问连接点,该类的所有方法都是静态的。常用的方法有:connect(String url) 作用:对给定url创建一个新的连接parse(File in, String charsetName) 作用:解析文件的内容,返回Document对象该方法有多个重载,有兴趣的可以自己查看API,这里就不详细介绍了。示例:package com.ficle;import java.io.File;import java.io.IOException;import java.util.Iterator;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;public class JsoupDemo {public static void main(String[] args) throws IOException{myJsoup();}/*** @throws IOException*/public static void myJsoup() throws IOException{//构建文件File file = new File("src\\test.html");Document doc = Jsoup.parse(file,"UTF-8");Elements e = doc.getElementsByTag("p");//遍历元素for (Iterator<Element> iterator = e.iterator(); iterator.hasNext();) {Element element = iterator.next();String s = element.text();System.out.println(s);}}}
运行截图:

                                            
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  网络爬虫 Jsoup