python简单爬虫编写
2016-01-31 01:42
801 查看
1.主要学习这程序的编写思路
a.读取解释网站
b.找到相关页
c.找到图片链接的元素
d.保存图片到文件夹
.....
将每一个步骤都分解出来,然后用函数去实现,代码易读性高.
##代码尽快运行时会报错,还须修改
a.读取解释网站
b.找到相关页
c.找到图片链接的元素
d.保存图片到文件夹
.....
将每一个步骤都分解出来,然后用函数去实现,代码易读性高.
##代码尽快运行时会报错,还须修改
import urllib.request import os def url_open(url): #读取解释 req = urllib.request.Request(url) # req.add_header(\'User-Agent\',\'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36\') response = urllib.request.urlopen(req) html = response.read() return html def get_page(url): #找到相关页 html = url_open(url) a = html.find('current-comment-page') b = html.find(a) return html[a:b] def find_imgs(url): #找到图片链接的元素 html = url_open(url) img_addrs = [] a = html.find('img src=') while a != -1: b = html.find('.jpg',a,a +255') if b !=-1: img_addrs.append(html[a+9:b+4]) else: b = a +9 a = html.find('img src=',b') return img_addrs def save_imgs(folder, img_addrs): #保存图片到文件夹 for each in img_addrs: filename = each.split('\'/\'') with open(filename,'wb') as f: img =url_open(each) f.write(img) def download_mm(folder='OOXX',pages=10): os.mkdir(folder) os.chdir(folder) url = 'http://jandan.net/ooxx/' page_num = int(get_page(url)) for i in range(pages): page_num -= i page_url = url + 'page-' + str(page_num) + '#comments' img_addrs = find_imgs(page_url) save_imgs(img_addrs) if __name__ == '__main__': download_mm()
相关文章推荐
- windows(32位 64位)下python安装mysqldb模块
- Python正则表达式指南
- Python内部执行过程
- python(2)-字符串(2)
- 玩转Python让人讨厌的编码问题
- python嵌套函数使用外部函数变量的方法(Python2和Python3)
- 在Python中移动目录结构的方法
- python在不同层级目录import模块的方法
- Calibre 制作电子书
- python微博爬虫编写
- python爬虫基础登----网站登录
- Python黑帽子--黑客与渗透测试编程之道
- IPython4_Notebook
- python study note
- python利用有道翻译实现“语言翻译器”的功能
- Traits-为Python添加类型定义
- python学习之9 日志记录logging
- python请求服务器图片并下载到本地磁盘
- 《笨办法学Python》 第28课手记
- python weibo sdk开发