Python爬虫——小说爬取
2017-11-18 21:30
561 查看
爬取小说并存入到txt文件中
小说网站 https://www.readnovel.com/
url特点 :
每本小说对应一个编号,所以每本小说对应的网址为
https://www.readnovel.com/chapter/#####/#####(小说编号)/
以爬取 小说阅读网 的 杀破唐 为例
我们需要爬取的内容是其小说部分,所以以获取第一章内容为例:
1. 打开第一章的网页链接:
1.1 首先利用开发者模式 ,获取网页的 headers
现在爬取网页最基本的两个元素就可以得到了:
1.2 还是在开发者模式下,我们可以看到本页面的HTML代码
此时可以再代码中找到相应的小说第一章的内容
1.3 利用 beautifulSoup 获取 需要爬取部分
效果图:
2.获取多个章节内容
2.1 获取多章小说实质上就是在获取一章的基础上加个循环,但是其中比较重要的就是网页url的变动。我们每获取下一章的内容是都需要知道其相应的url。
2.2 获取下一章的url
每一章节的最后,都会有一个 “下一章“ 的选择 ,在本页面对应的url代码中,我们就可以找到相应的下一章的链接。
从这段代码可以很容易的获取下一章的url:
3.完整代码:
存放效果图:
小说网站 https://www.readnovel.com/
url特点 :
每本小说对应一个编号,所以每本小说对应的网址为
https://www.readnovel.com/chapter/#####/#####(小说编号)/
以爬取 小说阅读网 的 杀破唐 为例
我们需要爬取的内容是其小说部分,所以以获取第一章内容为例:
1. 打开第一章的网页链接:
1.1 首先利用开发者模式 ,获取网页的 headers
现在爬取网页最基本的两个元素就可以得到了:
url="https://www.readnovel.com/chapter/22160402000540402/107513768840595159" headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}
1.2 还是在开发者模式下,我们可以看到本页面的HTML代码
此时可以再代码中找到相应的小说第一章的内容
1.3 利用 beautifulSoup 获取 需要爬取部分
req = urllib.request.Request(url = url , headers = headers) res = urllib.request.urlopen(req) html = res.read() # 到此,可获取网页的html代码 soup = BeautifulSoup(html,'lxml') nameText = soup.find('h3',attrs={'class':'j_chapterName'}) # 获取第一章的篇名 contentText = soup.find('div',attrs = {'class':'read-content j_readContent'}) # 获取第一章的内容 result = nameText.getText() + '\n' + contentText.getText() result = result.replace(' ','\n ') # 到此 , 将获取到的篇名 以及 内容 存放在 result 中 f = open(savePath , "w") f.write(result) # 将 获取的内容 存放在指定的路径 savePath 中
效果图:
2.获取多个章节内容
2.1 获取多章小说实质上就是在获取一章的基础上加个循环,但是其中比较重要的就是网页url的变动。我们每获取下一章的内容是都需要知道其相应的url。
2.2 获取下一章的url
每一章节的最后,都会有一个 “下一章“ 的选择 ,在本页面对应的url代码中,我们就可以找到相应的下一章的链接。
从这段代码可以很容易的获取下一章的url:
nextpage = soup.find('a' ,attrs = {'id':'j_chapterNext'}) if nextpage : currentURL = "https:" + nextpage['href'] else : currentURL = None # 这里的 currentURL 就是本章节的下一章节的url
3.完整代码:
import urllib.request
from bs4 import BeautifulSoup
def getHtml(url , headers):
req = urllib.request.Request(url = url , headers = headers)
res = urllib.request.urlopen(req)
html = res.read()
return html
def saveTxt(path , html):
f = open(path , "wb")
f.write(html)
def praseHtml(currentURL , headers, path):
#html = html.decode('utf-8')
chapter = 0
flag = 1
while flag:
chapter = chapter + 1
if chapter >= 20:
flag = 0
# 因为章节太多了,所以就手动控制只爬取了前20章
html = getHtml(currentURL , headers)
savePath = path + "\\"+ str(chapter) + ".txt"
# 将多章节分开存放,每一章节存为一个单独的txt文件,文件与章节书想对应,例如第一章就存为 1.txt
f = open(savePath , "w")
soup = BeautifulSoup(html,'lxml')
nameText = soup.find('h3',attrs={'class':'j_chapterName'})
contentText = soup.find('div',attrs = {'class':'read-content j_readContent'})
result = nameText.getText() + '\n' + contentText.getText()
result = result.replace(' ','\n ')
f.write(result)
#到此实现第一章的爬取
nextpage = soup.find('a' ,attrs = {'id':'j_chapterNext'})
if nextpage :
currentURL = "https:" + nextpage['href']
else :
currentURL = None
flag = 0
def main():
url="https://www.readnovel.com/chapter/22160402000540402/107513768840595159" headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}
path = "###\\novel"
# "###"代表的是相应的存放位置,然后将相应的多个文本文件存放在novel文件夹中
praseHtml(url , headers , path)
#saveTxt(path , html)
main()
存放效果图:
相关文章推荐
- 爬取小说的简易python爬虫
- python一个下载小说的简易爬虫
- python爬虫01-创建一个简单的爬虫(附赠爬取的100G某小说网数据库)
- Python 爬虫(获取小说)
- 批量下载小说网站上的小说(python爬虫)
- python 爬虫抓小说
- Python爬虫实例--爬取百度贴吧小说
- Python爬虫:爬取小说并存储到数据库
- python爬虫抓取晋江网一篇小说
- Python爬虫-爬小说
- python2.7 爬虫_爬取小说盗墓笔记章节及URL并导入MySQL数据库_20161201
- python爬虫——从此不用再愁找不到小说txt文件
- Python爬虫实战之使用Scrapy爬起点网的完本小说
- Python爬虫实战二 | 抓取小说网完结小说
- python初级实战系列教程《二、爬虫之爬取网页小说》
- Python爬虫(四):爬取136书屋小说,并保存至本地文本文件中,单进程多进程对比效率(以三生三世十里桃花为例)
- python学习(二)爬虫——爬取网站小说并保存为txt文件(一)
- python 爬虫 网络小说下载(静态网站)
- [Python实战项目] - xpath 爬虫实战,获取纵横小说网连载小说最新章节(一)
- Python爬虫抓取小说内容——20180314