您的位置：首页 > 编程语言 > Python开发

Python爬虫——小说爬取

2017-11-18 21:30 561 查看

爬取小说并存入到txt文件中

小说网站 https://www.readnovel.com/

url特点：

每本小说对应一个编号，所以每本小说对应的网址为

https://www.readnovel.com/chapter/#####/#####(小说编号)/

以爬取小说阅读网的杀破唐为例

我们需要爬取的内容是其小说部分，所以以获取第一章内容为例：

1. 打开第一章的网页链接：

1.1 首先利用开发者模式，获取网页的 headers

现在爬取网页最基本的两个元素就可以得到了：

url="https://www.readnovel.com/chapter/22160402000540402/107513768840595159"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}

1.2 还是在开发者模式下，我们可以看到本页面的HTML代码

此时可以再代码中找到相应的小说第一章的内容

1.3 利用 beautifulSoup 获取需要爬取部分

req = urllib.request.Request(url = url , headers = headers)
res = urllib.request.urlopen(req)
html = res.read()
# 到此，可获取网页的html代码

soup =  BeautifulSoup(html,'lxml')
nameText = soup.find('h3',attrs={'class':'j_chapterName'})
# 获取第一章的篇名
contentText = soup.find('div',attrs = {'class':'read-content j_readContent'})
# 获取第一章的内容

result = nameText.getText() + '\n' + contentText.getText()
result = result.replace('　　','\n  ')
# 到此 ， 将获取到的篇名 以及 内容 存放在 result 中
f = open(savePath , "w")
f.write(result)
# 将 获取的内容 存放在指定的路径 savePath 中

效果图：

2.获取多个章节内容

2.1 获取多章小说实质上就是在获取一章的基础上加个循环，但是其中比较重要的就是网页url的变动。我们每获取下一章的内容是都需要知道其相应的url。

2.2 获取下一章的url

每一章节的最后，都会有一个 “下一章“ 的选择，在本页面对应的url代码中，我们就可以找到相应的下一章的链接。

从这段代码可以很容易的获取下一章的url：

nextpage = soup.find('a' ,attrs = {'id':'j_chapterNext'})
if nextpage :
currentURL = "https:" + nextpage['href']
else :
currentURL = None
# 这里的 currentURL 就是本章节的下一章节的url

3.完整代码：

import urllib.request
from bs4 import BeautifulSoup

def getHtml(url , headers):
req = urllib.request.Request(url = url , headers = headers)
res = urllib.request.urlopen(req)
html = res.read()
return html

def saveTxt(path , html):
f = open(path , "wb")
f.write(html)

def praseHtml(currentURL , headers, path):

#html = html.decode('utf-8')
chapter = 0
flag = 1
while flag:
chapter = chapter + 1
if chapter >= 20:
flag = 0
# 因为章节太多了，所以就手动控制只爬取了前20章
html = getHtml(currentURL , headers)
savePath = path + "\\"+ str(chapter) + ".txt"
# 将多章节分开存放，每一章节存为一个单独的txt文件，文件与章节书想对应，例如第一章就存为 1.txt
f = open(savePath , "w")
soup =  BeautifulSoup(html,'lxml')
nameText = soup.find('h3',attrs={'class':'j_chapterName'})
contentText = soup.find('div',attrs = {'class':'read-content j_readContent'})
result = nameText.getText() + '\n' + contentText.getText()
result = result.replace('　　','\n  ')
f.write(result)
#到此实现第一章的爬取
nextpage = soup.find('a' ,attrs = {'id':'j_chapterNext'})
if nextpage :
currentURL = "https:" + nextpage['href']
else :
currentURL = None
flag = 0

def main():
url="https://www.readnovel.com/chapter/22160402000540402/107513768840595159"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}
path = "###\\novel"
# "###"代表的是相应的存放位置，然后将相应的多个文本文件存放在novel文件夹中
praseHtml(url , headers , path)
#saveTxt(path , html)

main()

存放效果图：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航