Java实现网页爬虫(Jsoup)获取网站ip数据(仅供学习,请勿使用于非法途径)
2019-05-08 17:27
841 查看
版权声明:本文为博主原创文章,转载请附上博文链接! https://blog.csdn.net/qq_41741884/article/details/89963027
1、很多时候我们都需要爬取网页数据来做一些基础数据,随着需求的增加各种语言也逐渐支持爬虫,那么java能不能呢?答案是必然的,下面就是使用Java实现爬虫的所需jar包以及小脚本:
import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; /** * jsoup爬取网页数据 * 核心在于理解代码 * 而不是去无脑复制 * * @author Xuan * */ public class proxytest1 { public static void main(String[] args) { List<Object> prefixips = new ArrayList<Object>();// 存起始ip地址 List<Object> suffixips = new ArrayList<Object>();// 存结束ip地址 List<Object> portarr = new ArrayList<Object>();// 存端口数量 Document doc = null; try { doc = Jsoup.connect("http://ip.bczs.net/country/ID").get();//发起一个请求网页 } catch (IOException e1) { e1.printStackTrace(); } // 获取目标HTML代码 Elements elements1 = doc.select("[class='well']"); Elements elements2 = null; Elements elements5 = null; Elements elements6 = null; Elements elements3 = null; Elements elements4 = null; Elements elementsa = null; Elements elementsport = null; //获取子级定位目标标签 elements2 = elements1.select("table"); elements5 = elements2.select("tbody"); elements6 = elements5.select("tr"); //循环tr标签获取数据 for (int i = 0; i < elements6.size(); i++) { elements3 = elements6.get(i).select("td").eq(0); elementsa = elements3.get(0).select("a").eq(0); // 第一个ip elements4 = elements6.get(i).select("td").eq(1);//第二个ip elementsport = elements6.get(i).select("td").eq(2);//端口数量 prefixips.add(elementsa.text()); suffixips.add(elements4.html()); portarr.add(elementsport.text()); } for (int i = 0; i < prefixips.size(); i++) { System.out.println("起始ip:"+prefixips.get(i)+"结尾ip:"+suffixips.get(i)+"端口数量:"+portarr.get(i)); } } }
2、效果如下图:
3、本次爬取的对方网址为:http://ip.bczs.net/country/ID
相关文章推荐
- java jsoup 爬虫爬asp.net网站遇到_doPostBack不能获取翻页数据解决办法
- 使用jsoup获取网页数据实现加载更多和下拉刷新(二)
- JAVA使用jsoup技术实现网站URL解析爬取|爬取网站登陆后页面动态数据
- java简单实现爬虫、jsoup实现网页抓取、POI实现数据导出Excel
- Java 网络爬虫获取网页源代码原理及实现
- Java 网络爬虫获取网页源代码原理及实现
- 使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用
- JAVA 实现简单的网络爬虫,获取网站图片
- java使用xpath及获取scrip内容爬取网站数据各种心得
- 【使用JSOUP实现网络爬虫】获取所有链接
- 【使用JSOUP实现网络爬虫】修改数据-设置元素的文本内容
- Java爬虫进阶-Jsoup+httpclient获取动态生成的数据
- 使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用
- java爬虫问题二: 使用jsoup爬取数据class选择器中空格多选择怎么解决
- [Java爬虫] 使用 Jsoup + HttpClient 爬取网页图片
- 【使用JSOUP实现网络爬虫】修改数据-设置属性的值
- 基于webmagic的java网页爬虫,抓取网页指定节点,然后使用dom4j分析xml数据
- java学习--网络爬虫(使用jsoup爬取网页内容)
- Java实现爬虫给App提供数据(Jsoup 网络爬虫)
- 【使用JSOUP实现网络爬虫】获取所有链接