爬取马蜂窝英国旅行攻略
2018-03-27 09:02
246 查看
Life is short The world is big。。。
没钱请无视上面这句话,我们还是老老实实看别人的攻略脑部脑补吧。。
-----
项目为抓取英国旅游的所有攻略,并且转成pdf保存到本地
------
需要安装wkhtmltopdf 这里提供64位版的地址 记得添加环境变量
有些问题我就不处理了你们自己看着办吧import os
import re
import time
import logging
import pdfkit
import requests
from bs4 import BeautifulSoup
from PyPDF2 import PdfFileMerger
headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",
"Accept-Encoding":"gzip",
"Accept-Language":"zh-CN,zh;q=0.8",
"Referer":"http://www.example.com/",
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36",
'Accept': 'application/json, text/javascript'}
def search_html(href):
return href and href.lower().startswith("/i/")
wo=0
pUrl="http://www.mafengwo.cn"
#一共有300页吧
for x in range(300):
add="http://www.mafengwo.cn/yj/10122/1-0-"+str(x)+".html"
r=requests.get(add,headers=headers)
print(r)
#获取每页list里的地址
bs=BeautifulSoup(r.text,"html.parser")
#找到以/i/开始
list=bs.find_all(href =search_html)
#输出正确的url
for i in list:
curURL = pUrl + i["href"]
wo=wo+1
pdf = pdfkit.from_url(curURL, "f:/uk/"+str(wo)+".pdf")
没钱请无视上面这句话,我们还是老老实实看别人的攻略脑部脑补吧。。
-----
项目为抓取英国旅游的所有攻略,并且转成pdf保存到本地
------
需要安装wkhtmltopdf 这里提供64位版的地址 记得添加环境变量
有些问题我就不处理了你们自己看着办吧import os
import re
import time
import logging
import pdfkit
import requests
from bs4 import BeautifulSoup
from PyPDF2 import PdfFileMerger
headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",
"Accept-Encoding":"gzip",
"Accept-Language":"zh-CN,zh;q=0.8",
"Referer":"http://www.example.com/",
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36",
'Accept': 'application/json, text/javascript'}
def search_html(href):
return href and href.lower().startswith("/i/")
wo=0
pUrl="http://www.mafengwo.cn"
#一共有300页吧
for x in range(300):
add="http://www.mafengwo.cn/yj/10122/1-0-"+str(x)+".html"
r=requests.get(add,headers=headers)
print(r)
#获取每页list里的地址
bs=BeautifulSoup(r.text,"html.parser")
#找到以/i/开始
list=bs.find_all(href =search_html)
#输出正确的url
for i in list:
curURL = pUrl + i["href"]
wo=wo+1
pdf = pdfkit.from_url(curURL, "f:/uk/"+str(wo)+".pdf")
相关文章推荐
- 美国游学英国游学推荐 选择国际游学机构五大攻略
- 2014年9月欧洲旅行攻略篇
- 旅行青蛙(旅かえる)的最全攻略
- 独自去旅行你必须知道的事—勇气小姐独行攻略(内有拍照秘籍哦)
- 深圳旅行购物全攻略
- 旅行青蛙前期怎么玩 新手入门必看攻略
- 写一个旅行青蛙攻略APP
- 旅行前要查一堆攻略太麻烦?“智游啦”想根据个人偏好标签,帮用户在移动端上快速规划出游线路
- 旅行青蛙破解版下载&攻略
- [日推荐]『梦想旅行』出国旅行全攻略!
- [日推荐]『梦想旅行』出国旅行全攻略!
- 【寻找最佳小程序】02期:腾讯旅游首款小工具“旅行小账本”——创意及研发过程大起底
- 经典DOS游戏皇帝攻略(曾经的回忆)
- Chrome插件(Extensions)开发攻略
- jsp 传值jsp 数据库 乱码解决的攻略 全套
- C++学习攻略--怎样学好C++语言
- 新手装机攻略!
- 一个人的旅行 HDU 2066 &&HDU Today HDU 2112