简单爬虫----爬取斗罗大陆3的100个章节(实现较复杂的翻页)
2017-10-30 22:34
239 查看
搞了一晚上终于搞好了这个爬虫。。。话说获得下一章的标签真不容易,用到了select选择器,然后获得a标签里面的href属性费了好大劲,测试了下爬取100章差不多花了半分钟
代码:
#coding=utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import urllib2
from bs4 import BeautifulSoup
import requests
f=open('text.txt','wb')
url="http://www.tycqxs.com/0_31/21142.html"
r=urllib2.urlopen(url).read()
soup=BeautifulSoup(r,"html.parser")
links=soup.find_all(id='content')
page=1
while page<100:
for link in links:
d=link.text
f.write(d+'\n')
temp=soup.select('div.bottem2 > a')
lis=BeautifulSoup(str(temp),"html.parser").find_all('a')
url="http://www.tycqxs.com"+lis[3]['href']
r = urllib2.urlopen(url).read()
soup = BeautifulSoup(r, "html.parser")
links = soup.find_all(id='content')
page=page+1
f.close()
代码:
#coding=utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import urllib2
from bs4 import BeautifulSoup
import requests
f=open('text.txt','wb')
url="http://www.tycqxs.com/0_31/21142.html"
r=urllib2.urlopen(url).read()
soup=BeautifulSoup(r,"html.parser")
links=soup.find_all(id='content')
page=1
while page<100:
for link in links:
d=link.text
f.write(d+'\n')
temp=soup.select('div.bottem2 > a')
lis=BeautifulSoup(str(temp),"html.parser").find_all('a')
url="http://www.tycqxs.com"+lis[3]['href']
r = urllib2.urlopen(url).read()
soup = BeautifulSoup(r, "html.parser")
links = soup.find_all(id='content')
page=page+1
f.close()
相关文章推荐
- 利用python实现简单的爬虫,爬百度文库相关词条信息
- python实现简单爬虫--爬图片
- python scrapy简单爬虫记录(实现简单爬取知乎)
- Python简单爬虫的实现
- c#关于网页内容抓取,简单爬虫的实现。(包括动态,静态的)
- 简单实现nodejs爬虫工具
- python实现简单爬虫功能
- java+jsoup实现简单网络爬虫
- Python实现简单的爬虫
- requests实现简单文本爬虫
- python实现简单爬虫功能
- python 简单爬虫实现
- 使用python实现简单爬虫
- python实现简单爬虫功能
- 关于使用Java实现的简单网络爬虫Demo
- python实现简单爬虫功能
- SOCKET简单爬虫实现代码和使用方法
- Java爬虫的简单实现
- iOS简单优雅的实现复杂情况下的串行需求(各种锁、GCD 、NSOperationQueue...)
- erlang实现简单爬虫