您的位置：首页 > 编程语言 > Java开发

【Java Utility】Jsoup网页爬虫工具--从文件加载Document【六】

2017-04-26 15:37 633 查看

原文出自：https://jsoup.org/cookbook/input/load-document-from-file

需求：
硬盘上存储某个包含HTML的文件，需要加载并解析，同时可能需要对其数据进行操作或提取

解决方案：
使用静态方法Jsoup.parse(File in, String charsetName, String baseUri)

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

说明：

方法：Jsoup.parse(File in, String charsetName, String baseUri)加载并解析一个HTML文件。若加载时出现错误，它会抛出一个需要处理的IOException

参数baseUri：解析器在找到<base href>元素之前，使用该参数分解文档中的相关url。如果这对你不重要，可以传递空字符串参数代替。

这里还有一个类似方法：

parse(File in, String charsetName)，它使用文件的磁盘存储路径作为baseUri。如果访问的是文件系统并且相关链接也指向该文件系统时，该方法是很有用的。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航