一个抓取智联招聘数据并存入表格的python爬虫
2017-08-16 22:33
513 查看
talk is cheap...show you the code.....
1 import requests 2 import lxml,time,os 3 from bs4 import BeautifulSoup as sb 4 from xlwt import * 5 import sys 6 reload(sys) 7 sys.setdefaultencoding('utf-8') 8 print sys.getdefaultencoding() 9 10 book = Workbook(encoding = "utf-8") 11 table = book.add_sheet("test1") 12 table.write(0,0,'number') 13 table.write(0,1,'position') 14 table.write(0,2,'feedback') 15 table.write(0,3,'company') 16 table.write(0,4,'salary') 17 table.write(0,5,'address ') 18 table.write(0,6,"updatetime") 19 table.write(0,7,"details") 20 headers = {"User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36"} 21 22 for num in range(90): 23 url = 'http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E4%B8%9C%E8%8E%9E&p='+str(num) 24 print url 25 res = requests.get(url,headers = headers) 26 html = sb(res.text,'lxml') 27 zwmc = html.find_all('td',class_="zwmc") 28 fk_lv = html.find_all('td',class_="fk_lv") 29 gsmc = html.find_all('td',class_="gsmc") 30 zwyx = html.find_all('td',class_="zwyx") 31 gzdd = html.find_all('td',class_="gzdd") 32 gxsj = html.find_all('td',class_="gxsj") 33 details = html.find_all('li',class_="newlist_deatil_last") 34 row = num*len(zwmc) 35 for i in range(1,len(zwmc)): 36 print zwmc[i].text.strip()+"---"+fk_lv[i].text.strip()+"---"+ gsmc[i].text.strip()+"---"+ zwyx[i].text.strip()+"---"+ gzdd[i].text.strip()+"---"+gxsj[i].text.strip() 37 table.write(row+i,0,row+i) 38 table.write(row+i,1,zwmc[i].text.strip()) 39 table.write(row+i,2,fk_lv[i].text.strip()) 40 table.write(row+i,3,gsmc[i].text.strip()) 41 table.write(row+i,4,zwyx[i].text.strip()) 42 table.write(row+i,5,gzdd[i].text.strip()) 43 table.write(row+i,6,gxsj[i].text.strip()) 44 table.write(row+i,7,details[i].text.strip()) 45 book.save('result.xls')
相关文章推荐
- [置顶] 【python爬虫】网贷天眼平台表格数据抓取
- 用python抓取表格数据并导出到excel文件中
- python淘宝爬虫基于requests抓取淘宝商品数据
- Python数据抓取(2) —简单网络爬虫的撰写
- Python 网络爬虫5 ---- 第一次实现抓取数据并且存放到mysql数据库中
- [Python爬虫] 之二十五:Selenium +phantomjs 利用 pyquery抓取今日头条网数据
- Python爬虫之五:抓取智联招聘基础版
- 运用python抓取博客园首页的全部数据,并且定时持续抓取新发布的内容存入mongodb中
- Python抓取数据并存入到mysql
- 一个用Python编写的股票数据(沪深)爬虫和选股策略测试框架
- Python开源爬虫项目代码:抓取淘宝、京东、QQ、知网数据--转
- Python爬虫简单实战:抓取小猪短租西安市前五页民房数据
- [Python爬虫] 之十八:Selenium +phantomjs 利用 pyquery抓取电视之家网数据
- 爬虫 抓取数据后 显示到前台页面,jsoup包,ajax,设置一个返回ResponseResult结果集
- python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例
- Python3 爬虫拉勾网抓取数据保存在Excel中
- 一个简单的使用python抓取网页中的水文数据的程序
- Python爬虫(7):多进程抓取拉钩网十万数据
- 【python爬虫】抓取B站视频数据及相关信息(二)
- Python爬虫:抓取手机APP的数据