您的位置:首页 > 其它

爬取马蜂窝英国旅行攻略

2018-03-27 09:02 246 查看
Life is short The world is big。。。
没钱请无视上面这句话,我们还是老老实实看别人的攻略脑部脑补吧。。

-----
项目为抓取英国旅游的所有攻略,并且转成pdf保存到本地
------
需要安装wkhtmltopdf 这里提供64位版的地址 记得添加环境变量
有些问题我就不处理了你们自己看着办吧import os
import re
import time
import logging
import pdfkit
import requests
from bs4 import BeautifulSoup
from PyPDF2 import PdfFileMerger
headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",
"Accept-Encoding":"gzip",
"Accept-Language":"zh-CN,zh;q=0.8",
"Referer":"http://www.example.com/",
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36",
'Accept': 'application/json, text/javascript'}

def search_html(href):
return href and href.lower().startswith("/i/")

wo=0

pUrl="http://www.mafengwo.cn"

#一共有300页吧
for x in range(300):
add="http://www.mafengwo.cn/yj/10122/1-0-"+str(x)+".html"
r=requests.get(add,headers=headers)
print(r)
#获取每页list里的地址
bs=BeautifulSoup(r.text,"html.parser")
#找到以/i/开始
list=bs.find_all(href =search_html)
#输出正确的url
for i in list:
curURL = pUrl + i["href"]
wo=wo+1
pdf = pdfkit.from_url(curURL, "f:/uk/"+str(wo)+".pdf")
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: