python爬取起点中文网,原创榜单
2017-12-13 18:24
197 查看
import requests from bs4 import BeautifulSoup headers={ 'UserAgent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36' } total=[] for i in range(1,11): url='https://www.qidian.com/rank/yuepiao?chn=0&page={}'+str(i) res=requests.get(url,headers=headers) soup=BeautifulSoup(res.text,'html.parser') 书名s=soup.select('#rank-view-list > div > ul > li > div.book-mid-info > h4 > a') 作者s=soup.select('#rank-view-list > div > ul > li > div.book-mid-info > p.author > a.name') 类型s=soup.select('#rank-view-list > div > ul > li > div.book-mid-info > p.author > a:nth-of-type(2)') 简介s=soup.select('#rank-view-list > div > ul > li > div.book-mid-info > p.intro') 最新章节s=soup.select('#rank-view-list > div > ul > li > div.book-mid-info > p.update > a') 链接s=soup.select('#rank-view-list > div > ul > li > div.book-mid-info > h4 > a') for 书名,作者,类型,简介,最新章节,链接 in zip(书名s,作者s,类型s,简介s,最新章节s,链接s): data={'书名':书名.get_text().strip(),\ '作者':作者.get_text().strip(),\ '类型':类型.get_text().strip(),\ '简介':简介.get_text().strip(),\ '最新章节':最新章节.get_text().strip(),\ '链接':链接['href'].strip()} total.append(data) print(total) import pandas deal1=pandas.DataFrame(total) #print(deal1) deal1.to_excel('qidian.xls')
相关文章推荐
- 【原创】python模拟腾讯网页登录
- [原创] Learning in Python:Chapter 3 How You Run Programs
- python循环显示字符串[原创]
- Python返回汉字的汉语拼音(原创)
- [原创]如何编写多个阻塞队列连接下的多生产者多消费者的Python程序
- [原创] Demo: Python crawler use chrome headless - pyppeteer
- [Python] wxPython 状态栏组件、消息对话框组件 学习总结(原创)
- 【原创】python try cat…
- 【原创】python filter函数
- 【原创】 linux-python …
- 【原创】 python MySQLdb 异常总结
- 【原创】Python Threading.Ti…
- 【原创】python run jav…
- 【python爬虫】import引起的一个小bug【原创】
- 今天干掉python 2.5.1-r4后[原创]
- python爬虫(入门教程、视频教程)[原创]_python_脚本之家
- [原创] Python 使用指定的网卡发送HTTP请求
- 【原创】pythonchalleng——第15题
- [原创]python下opencv图像加法测试
- 使用python抓取有路网图书信息(原创)