您的位置:首页 > Web前端 > JavaScript

Jsoup使用代理ip爬虫

2017-01-19 16:52 656 查看
Jsoup本身没有[b]设置代理ip的功能,但是可以通过httpsUrlConnection设置代理ip获取页面内容,[/b]

然后用jsoup转为Document结构,代码如下:



public void getDocByJsoup(String href){

String ip = "221.237.155.64";

int port = 9797;

try {

Proxy proxy = new Proxy(Proxy.Type.HTTP,
new InetSocketAddress(ip, port));

 

URL url = new URL(href);  

HttpsURLConnection urlcon = (HttpsURLConnection)url.openConnection(proxy);  

urlcon.connect();         //获取连接  

InputStream is = urlcon.getInputStream();  

BufferedReader buffer = new BufferedReader(new InputStreamReader(is));  

StringBuffer bs = new StringBuffer();  

String l = null;  

while((l=buffer.readLine())!=null){  

bs.append(l);  

}  

System.out.println(bs.toString());  

Document doc = Jsoup.parse(bs.toString());

} catch (Exception e) {

e.printStackTrace();

}

}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  jsoup 爬虫 代理ip