【Java Utility】Jsoup网页爬虫工具--从文件加载Document【六】
2017-04-26 15:37
633 查看
原文出自:https://jsoup.org/cookbook/input/load-document-from-file
需求:
硬盘上存储某个包含HTML的文件,需要加载并解析,同时可能需要对其数据进行操作或提取
解决方案:
使用静态方法Jsoup.parse(File in, String charsetName, String baseUri)
说明:
方法:Jsoup.parse(File in, String charsetName, String baseUri)加载并解析一个HTML文件。若加载时出现错误,它会抛出一个需要处理的IOException
参数baseUri:解析器在找到<base href>元素之前,使用该参数分解文档中的相关url。如果这对你不重要,可以传递空字符串参数代替。
这里还有一个类似方法:
parse(File in, String charsetName),它使用文件的磁盘存储路径作为baseUri。如果访问的是文件系统并且相关链接也指向该文件系统时,该方法是很有用的。
需求:
硬盘上存储某个包含HTML的文件,需要加载并解析,同时可能需要对其数据进行操作或提取
解决方案:
使用静态方法Jsoup.parse(File in, String charsetName, String baseUri)
File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
说明:
方法:Jsoup.parse(File in, String charsetName, String baseUri)加载并解析一个HTML文件。若加载时出现错误,它会抛出一个需要处理的IOException
参数baseUri:解析器在找到<base href>元素之前,使用该参数分解文档中的相关url。如果这对你不重要,可以传递空字符串参数代替。
这里还有一个类似方法:
parse(File in, String charsetName),它使用文件的磁盘存储路径作为baseUri。如果访问的是文件系统并且相关链接也指向该文件系统时,该方法是很有用的。
相关文章推荐
- 【Java Utility】Jsoup网页爬虫工具--从URL加载Document【五】
- 【Java Utility】Jsoup网页爬虫工具--将String解析成Document【三】
- 【Java Utility】Jsoup网页爬虫工具--使用DOM方法浏览Document【七】
- 【Java Utility】Jsoup网页爬虫工具--设置属性值【十一】
- 【Java Utility】Jsoup网页爬虫工具--文档解析及转换【二】
- 【Java Utility】Jsoup网页爬虫工具--设置Element的HTML内容【十二】
- 【Java Utility】Jsoup网页爬虫工具--从元素/元素集中提取属性、文本和HTML内容【九】
- 【Java Utility】Jsoup网页爬虫工具简介Java HTML PARSER【一】
- 【Java Utility】Jsoup网页爬虫工具-使用选择器查找元素【八】
- 【Java Utility】Jsoup网页爬虫工具--解析HTML语句片段【四】
- java爬虫实战简单用Jsoup框架进行网页爬虫(如抓取网页图片)
- 【网络爬虫】【java】微博爬虫(四):数据处理——jsoup工具解析html、dom4j读写xml
- Java 爬虫工具Jsoup解析
- 【正完成】Java基于Jsoup的网络爬虫工具实现
- 如何通过jsoup网络爬虫工具爬取网页数据,并通过jxl工具导出到excel
- LUT Utility for FCPX for Mac(LUTs调色文件加载工具)激活版 v1.44破解版
- Java爬虫——phantomjs抓取ajax动态加载网页
- 【使用JSOUP实现网络爬虫】从一个URL加载一个Document
- java项目加载配置文件的工具类
- [Java爬虫] 使用 Jsoup + HttpClient 爬取网页图片