您的位置:首页 > 编程语言 > Java开发

【Java Utility】Jsoup网页爬虫工具--从文件加载Document【六】

2017-04-26 15:37 633 查看
原文出自:https://jsoup.org/cookbook/input/load-document-from-file

需求:
硬盘上存储某个包含HTML的文件,需要加载并解析,同时可能需要对其数据进行操作或提取

解决方案:
使用静态方法Jsoup.parse(File in, String charsetName, String baseUri)

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");


说明:

方法:Jsoup.parse(File in, String charsetName, String baseUri)加载并解析一个HTML文件。若加载时出现错误,它会抛出一个需要处理的IOException

参数baseUri:解析器在找到<base href>元素之前,使用该参数分解文档中的相关url。如果这对你不重要,可以传递空字符串参数代替。

这里还有一个类似方法:

parse(File in, String charsetName),它使用文件的磁盘存储路径作为baseUri。如果访问的是文件系统并且相关链接也指向该文件系统时,该方法是很有用的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: