您的位置:首页 > 编程语言 > Python开发

Python爬虫-爬小说

2017-06-02 23:27 316 查看

用途

用来爬小说网站的小说默认是这本御天邪神,虽然我并没有看小说,但是丝毫不妨碍我用爬虫来爬小说啊。

如果下载不到txt,那不如自己把txt爬下来好了。

功能

将小说取回,去除HTML标签

记录已爬过/未爬过的章节

从最后爬过那一页开始继续爬,不会重复爬取爬过的目录

因为爬过的章节是要有顺序的,目前版本还没有支持多线程。(线程混乱分不清章节先后)

使用方式

Python的安装是必须,除此之外,还有这些依赖

(Py3Env) Caden-Mac:Fun caden$ pip list --format=columns
Package        Version
-------------- ---------
beautifulsoup4 4.6.0
html2text      2016.9.19
lxml           3.7.3
requests       2.14.2

依赖安装方式

pip install beautifulsoup4 lxml requests html2text


新建一个task.json的文件,放入spider.py同目录,内容如下

{
"title": "御天邪神",
"base_url": "http://i.258zw.com/wapbook-1852/",
"last_page_url": ""
}

title是书名,base_url是章节的第一页,last_page_url留空就好

python spider.py
开始运行,然后等待直到结束。

就像这样:



python源码:Github-Syler-Fun-spider.py
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: