您的位置：首页 > 理论基础 > 计算机网络

网络爬虫2----JSoup解析HTML

2016-12-23 14:10 267 查看

网络爬虫2----JSoup解析HTML什么是Jsoup?Jsoup是Java HTML解析器，用于处理真实世界的HTML的Java库。它提供了一个非常方便的API来提取操作数据。Jsoup类：Jsoup功能的核心访问连接点，该类的所有方法都是静态的。常用的方法有：connect(String url) 作用：对给定url创建一个新的连接parse(File in, String charsetName) 作用：解析文件的内容，返回Document对象该方法有多个重载，有兴趣的可以自己查看API，这里就不详细介绍了。示例：package com.ficle;import java.io.File;import java.io.IOException;import java.util.Iterator;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;public class JsoupDemo {public static void main(String[] args) throws IOException{myJsoup();}/*** @throws IOException*/public static void myJsoup() throws IOException{//构建文件File file = new File("src\\test.html");Document doc = Jsoup.parse(file,"UTF-8");Elements e = doc.getElementsByTag("p");//遍历元素for (Iterator<Element> iterator = e.iterator(); iterator.hasNext();) {Element element = iterator.next();String s = element.text();System.out.println(s);}}}

运行截图:

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 网络爬虫 Jsoup

相关文章推荐

新的分享

章节导航