Python爬虫倒立文字验证码登录知乎
2017-11-04 21:17
543 查看
引言
本文解析了知乎倒立文字验证码的原理,人工识别倒立文字所在位置后组织报文成功登录。原理
关于登录的基本原理可参考Python爬虫之模拟知乎登录,只不过这篇文章中登录的验证码为“数字英文”模式,而当前登录时是“点击倒立文字”模式,所以主要记录这部分。先故意选错验证码,如图,选中第三个和第五个汉字,点击登录
在开发者模式中观察浏览器是如何发送请求的
如图所示captcha即为验证码信息:其中”img_size”字段每次都是[200,44],应该表示图片大小。后面的”input_points”是你点击验证码中倒立文字的坐标,服务端应该是判断输入的坐标在匹配的一定范围内即判断验证码正确。
由于验证码中七个文字位置是固定的,只需要提前确定每个字所在坐标并放入列表中,然后人工确定倒立文字的文字序号,将列表中序号对应的坐标加入input_points字段。
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(1)中获取了这七个文字坐标依次如下:[22.796875,22],[42.796875,22],[63.796875,21],[84.796875,20],[107.796875,20],[129.796875,22],[150.796875,22]。
代码
# encoding: utf-8 # !/usr/bin/env python import time from http import cookiejar import json import requests from bs4 import BeautifulSoup headers = { "Host": "www.zhihu.com", "Referer": "https://www.zhihu.com/", 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36' } # 使用登录cookie信息 session = requests.session() session.cookies = cookiejar.LWPCookieJar(filename='cookies.txt') try: print(session.cookies) session.cookies.load(ignore_discard=True) except: print("还没有cookie信息") def get_xsrf(): response = session.get("https://www.zhihu.com", headers=headers, verify=False) soup = BeautifulSoup(response.content, "html.parser") xsrf = soup.find('input', attrs={"name": "_xsrf"}).get("value") return xsrf def get_captcha(): """ 把验证码图片保存到当前目录,手动识别验证码 """ t = str(int(time.time() * 1000))#验证码是按时间戳命名 captcha_url = 'https://www.zhihu.com/captcha.gif?r=' + t + "&type=login&lang=cn" print(captcha_url) r = session.get(captcha_url, headers=headers) with open('captcha.gif', 'wb') as f: f.write(r.content) f.close() # 自动打开刚获取的验证码 from PIL import Image try: img = Image.open('captcha.gif') img.show() img.close() except: pass captcha = { 'img_size': [200, 44], 'input_points': [], } points = [[22.796875, 22], [42.796875, 22], [63.796875, 21], [84.796875, 20], [107.796875, 20], [129.796875, 22], [150.796875, 22]] seq = input('请输入倒立字的位置\n>') for i in seq: captcha['input_points'].append(points[int(i) - 1]) return json.dumps(captcha) def login(email, password): login_url = 'https://www.zhihu.com/login/email' data = { 'email': email, 'password': password, '_xsrf': get_xsrf(), "captcha": get_captcha(), 'captcha_type': 'cn',} print(session.cookies) response = session.post(login_url, data=data, headers=headers) login_code = response.json() print(login_code['msg']) print(session.cookies) r = session.get("https://www.zhihu.com/settings/profile", headers=headers) print(r.status_code) print(r.text) with open("xx.html", "wb") as f: f.write(r.content) if __name__ == '__main__': email = "xxxxxx" password = "xxxxxx" login(email, password)
效果如下:
参考
Python爬虫之模拟知乎登录python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(1)
相关文章推荐
- python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(1)
- python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
- python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
- python爬虫scrapy框架——人工识别知乎登录知乎倒立文字验证码和数字英文验证码
- 第三百四十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
- [python和大数据-1]利用爬虫登录知乎进行BFS搜索抓取用户信息本地mysql分析【PART1】
- 【爬虫】python requests模拟登录知乎
- Python爬虫模拟登录带验证码网站
- Python 半自动登录知乎-验证码需要识别
- Python爬虫初学(三)—— 模拟登录知乎
- 【python爬虫03】使用Scrapy框架模拟登录知乎
- Python爬虫模拟登录带验证码网站
- Python3 爬虫(四) -- 登录知乎
- Python3 爬虫(四) -- 登录知乎
- Python爬虫实现验证码登录
- Python爬虫:模拟登录带验证码网站
- Python爬虫模拟登录带验证码网站
- Python爬虫从入门到放弃(二十四)之 Scrapy登录知乎
- Python3 爬虫(四) -- 登录知乎
- python 爬虫——登录知乎