Python爬虫-爬小说
2017-06-02 23:27
316 查看
用途
用来爬小说网站的小说默认是这本御天邪神,虽然我并没有看小说,但是丝毫不妨碍我用爬虫来爬小说啊。如果下载不到txt,那不如自己把txt爬下来好了。
功能
将小说取回,去除HTML标签记录已爬过/未爬过的章节
从最后爬过那一页开始继续爬,不会重复爬取爬过的目录
因为爬过的章节是要有顺序的,目前版本还没有支持多线程。(线程混乱分不清章节先后)
使用方式
Python的安装是必须,除此之外,还有这些依赖(Py3Env) Caden-Mac:Fun caden$ pip list --format=columns Package Version -------------- --------- beautifulsoup4 4.6.0 html2text 2016.9.19 lxml 3.7.3 requests 2.14.2
依赖安装方式
pip install beautifulsoup4 lxml requests html2text
新建一个task.json的文件,放入spider.py同目录,内容如下
{ "title": "御天邪神", "base_url": "http://i.258zw.com/wapbook-1852/", "last_page_url": "" }
title是书名,base_url是章节的第一页,last_page_url留空就好
python spider.py开始运行,然后等待直到结束。
就像这样:
python源码:Github-Syler-Fun-spider.py
相关文章推荐
- python 网站爬虫 下载在线盗墓笔记小说到本地的脚本
- Python制作爬虫采集小说
- python爬虫——从此不用再愁找不到小说txt文件
- Python爬虫:爬取小说花千骨--转自微信
- python写的整本书的小说爬虫(并写入txt文件)
- python 爬虫抓小说
- Python爬虫入门实战系列(一)--爬取网络小说并存放至txt文件
- python一个下载小说的简易爬虫
- Python爬虫实例--爬取百度贴吧小说
- [Python实战项目] - xpath 爬虫实战,获取纵横小说网连载小说最新章节(一)
- python 站点爬虫 下载在线盗墓笔记小说到本地的脚本
- python爬虫抓取晋江网一篇小说
- Python爬虫小说采集程序
- 读书笔记(2)——python爬虫爬取小说,并存为json文件
- Python requests爬虫爬取小说数据
- python 网站爬虫 下载在线盗墓笔记小说到本地的脚本
- python2.7 爬虫_爬取小说盗墓笔记章节及URL并导入MySQL数据库_20161201
- 批量下载小说网站上的小说(python爬虫)
- python用字符串操作20行代码简单爬虫入门+案例(爬取一章《三体》小说)
- Python爬虫——小说爬取