您的位置:首页 > 编程语言 > Python开发

Python爬虫——小说爬取

2017-11-18 21:30 561 查看
爬取小说并存入到txt文件中

小说网站 https://www.readnovel.com/

url特点 :

每本小说对应一个编号,所以每本小说对应的网址为

https://www.readnovel.com/chapter/#####/#####(小说编号)/

以爬取 小说阅读网杀破唐 为例



我们需要爬取的内容是其小说部分,所以以获取第一章内容为例:

1. 打开第一章的网页链接:

1.1 首先利用开发者模式 ,获取网页的 headers



现在爬取网页最基本的两个元素就可以得到了:

url="https://www.readnovel.com/chapter/22160402000540402/107513768840595159"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}


1.2 还是在开发者模式下,我们可以看到本页面的HTML代码



此时可以再代码中找到相应的小说第一章的内容



1.3 利用 beautifulSoup 获取 需要爬取部分

req = urllib.request.Request(url = url , headers = headers)
res = urllib.request.urlopen(req)
html = res.read()
# 到此,可获取网页的html代码

soup =  BeautifulSoup(html,'lxml')
nameText = soup.find('h3',attrs={'class':'j_chapterName'})
# 获取第一章的篇名
contentText = soup.find('div',attrs = {'class':'read-content j_readContent'})
# 获取第一章的内容

result = nameText.getText() + '\n' + contentText.getText()
result = result.replace('  ','\n  ')
# 到此 , 将获取到的篇名 以及 内容 存放在 result 中
f = open(savePath , "w")
f.write(result)
# 将 获取的内容 存放在指定的路径 savePath 中


效果图:



2.获取多个章节内容

2.1 获取多章小说实质上就是在获取一章的基础上加个循环,但是其中比较重要的就是网页url的变动。我们每获取下一章的内容是都需要知道其相应的url。

2.2 获取下一章的url



每一章节的最后,都会有一个 “下一章“ 的选择 ,在本页面对应的url代码中,我们就可以找到相应的下一章的链接。



从这段代码可以很容易的获取下一章的url:

nextpage = soup.find('a' ,attrs = {'id':'j_chapterNext'})
if nextpage :
currentURL = "https:" + nextpage['href']
else :
currentURL = None
# 这里的 currentURL 就是本章节的下一章节的url


3.完整代码:

import urllib.request
from bs4 import BeautifulSoup

def getHtml(url , headers):
req = urllib.request.Request(url = url , headers = headers)
res = urllib.request.urlopen(req)
html = res.read()
return html

def saveTxt(path , html):
f = open(path , "wb")
f.write(html)

def praseHtml(currentURL , headers, path):

#html = html.decode('utf-8')
chapter = 0
flag = 1
while flag:
chapter = chapter + 1
if chapter >= 20:
flag = 0
# 因为章节太多了,所以就手动控制只爬取了前20章
html = getHtml(currentURL , headers)
savePath = path + "\\"+ str(chapter) + ".txt"
# 将多章节分开存放,每一章节存为一个单独的txt文件,文件与章节书想对应,例如第一章就存为 1.txt
f = open(savePath , "w")
soup = BeautifulSoup(html,'lxml')
nameText = soup.find('h3',attrs={'class':'j_chapterName'})
contentText = soup.find('div',attrs = {'class':'read-content j_readContent'})
result = nameText.getText() + '\n' + contentText.getText()
result = result.replace('  ','\n ')
f.write(result)
#到此实现第一章的爬取
nextpage = soup.find('a' ,attrs = {'id':'j_chapterNext'})
if nextpage :
currentURL = "https:" + nextpage['href']
else :
currentURL = None
flag = 0

def main():
url="https://www.readnovel.com/chapter/22160402000540402/107513768840595159" headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}
path = "###\\novel"
# "###"代表的是相应的存放位置,然后将相应的多个文本文件存放在novel文件夹中
praseHtml(url , headers , path)
#saveTxt(path , html)

main()


存放效果图:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: