您的位置:首页
化工网批量获取
2016-03-16 10:32
169 查看
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门
https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6EmUbbW&id=564564604865
化工网批量获取,并存储到excel内
![](https://oscdn.geek-share.com/Uploads/Images/Content/201603/be80c5fd52602e9470acdbee3b0df69d.png)
https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6EmUbbW&id=564564604865
化工网批量获取,并存储到excel内
![](https://oscdn.geek-share.com/Uploads/Images/Content/201603/be80c5fd52602e9470acdbee3b0df69d.png)
# -*- coding: utf-8 -*- """ Created on Tue Mar 15 09:35:28 2016 @author: Administrator """ import requests,bs4,openpyxl,time,selenium excelName="sites.xlsx" sheetName="Sheet1" wb1=openpyxl.load_workbook(excelName) sheet=wb1.get_sheet_by_name(sheetName) start=1 columnName="A" #真正网址数量2798个,测试只用10个 #pages=2798 pages=10 #找到真正网址 sites_list=[] #第一页网址 #site="http://www.bzwxw.com/index.php?info%5Bcatid%5D=0&info%5Btitle%5D=gb&m=content&c=search&a=init&catid=13&dosubmit=1&page=1" def crawl_onePage_sites(page): res=requests.get(page) res.encoding = 'gbk' soup1=bs4.BeautifulSoup(res.text,"lxml") #sites=soup1.select('.blue fn') sites=soup1.find_all(attrs={"class":"blue fn"}) #find_all找到所有带有谋class对象 #sites=soup1.select(".blue a") #找到真正网址 for i in sites: s=i.get("href") #get获取href的内容 sites_list.append(s) page_list=[] page_front="http://www.bzwxw.com/index.php?info%5Bcatid%5D=0&info%5Btitle%5D=gb&m=content&c=search&a=init&catid=13&dosubmit=1&page=" for i in range(1,pages): page=page_front+str(i) page_list.append(page) for page in page_list: crawl_onePage_sites(page) #网址数量 len_sites=len(sites_list) row=2 for site in sites_list: sheet['A'+str(row)].value=site row+=1 wb1.save(excelName)
相关文章推荐
- PDO防sql注入原理分析
- 非标准武术擂台机器人的设计思想——机械结构的设计思想
- 结合Apache和Tomcat实现集群和负载均衡
- Java使用代理发送Http请求
- 理解CSS3 transform中的Matrix(矩阵)
- No enclosing instance of the type RegisterActivity is accessible
- 网页页面NULL值对浏览器兼容性的影响
- Java Web Session购物商店小实例
- 设计模式:迭代器模式
- BZOJ 1007 HNOI2008 水平可见直线 半平面交
- Github获取仓库最新Release版本号API
- Laravel中Trait的用法实例详解
- MySQL常用命令和图形界面工具
- POJ 1251 (最小生成树)
- 3.14项目管理一般知识和立项管理作业
- CoreData的增删改查
- 发现大量的TIME_WAIT解决办法
- 蓝桥杯 密码发生器
- python学习笔记(6)-高级特性(二)-迭代
- Java Web Session 登录实例