python爬虫--利用xpath爬取图片(虚拟机ubuntu16.04)
2018-01-26 10:43
435 查看
此篇爬虫的背景是:虚拟机刚装好的ubuntu 16.04,系统环境还需配置,爬虫的程序是之前几个月前在windows上写的,今天放到虚拟机上跑一跑!(安装了VMware Tools就可以把宿主机上的文件拉进虚拟机中!)
xpath爬取用到了urllib2与lxml库,ubuntu16.04自带python2.7.11,包含了urllib2库,但lxml还需安装!
上程序:
运行结果为:
查看文件:
打开对应的文件夹即可查看图片
xpath爬取用到了urllib2与lxml库,ubuntu16.04自带python2.7.11,包含了urllib2库,但lxml还需安装!
上程序:
# -*- coding:utf-8 -*- import urllib2 from lxml import etree def loadPage(url): headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:54.0) Gecko/20100101 Firefox/54.0","Referer":"http://www.mmonly.cc/mmtp/xgmn/175265_4.html"} request = urllib2.Request(url,headers = headers) response = urllib2.urlopen(request) html = response.read() #print html content = etree.HTML(html) link_list = content.xpath('//div[@class="thumb"]/img/@src') for link in link_list: writeImage(link) def writeImage(link): request = urllib2.Request(link) image = urllib2.urlopen(request).read() filename = link[-10:] with open(filename,'wb') as f: f.write(image) print "download successful" + filename if __name__ == "__main__": url = "http://www.xiaoliaobaike.cn/qutu" p = input("please input a tegert: ") fullurl = url + "?p=" + str(p) loadPage(fullurl) ~
运行结果为:
查看文件:
打开对应的文件夹即可查看图片
相关文章推荐
- ubuntu下利用python对文件夹下图片进行大小调整
- 学习小记 - Python爬虫 (3) 利用Python爬取wanimal所有图片
- [Python/爬虫]利用xpath爬取豆瓣电影top250
- 自己安装虚拟机vbox+ubuntu16.04+opencv3.2.0+python2.7+caffe+CPUonly的全过程整理
- python利用urllib实现爬取京东网站商品图片的爬虫实例
- python爬虫--xpath结合re同时爬取文字与图片
- 虚拟机中在Ubuntu16.04下安装Python3.6+Anaconda+TensorFlow
- [Python爬虫] 之二十六:Selenium +phantomjs 利用 pyquery抓取智能电视网站图片信息
- Python爬虫——利用PhantomJS下载动态加载图片
- python爬虫--re结合xpath爬取图片
- VMware10中ubuntu16.04,装虚拟机工具
- 基于python利用爬虫爬取网页教程
- VMware Workstation虚拟机平台安装Linux-Ubuntu16.04图文教程
- 自己用python捣鼓的煎蛋网图片爬虫
- ubuntu16.04上安装Python 3.5.X的pygame
- python爬虫之图片下载
- ubuntu16.04 安装python virtualenv
- Ubuntu 16.04 安装 redis 分布式爬虫
- Ubuntu16.04 python3 caffe安装
- 手把手教你用Python爬虫煎蛋妹纸海量图片