python3.6+BeautifulSoup4.2 爬取各类app应用信息并下载app包
2018-02-08 13:56
495 查看
---------------环境配置---------------
1、在Windows操作系统下安装python-3.6.4-amd64.exe
2、配置环境变量
Path变量:如C:\Users\Administrator\AppData\Local\Programs\Python\Python36\
打开cmd命令窗口,输入:python命令,可以进入python 编辑命令行,即可。
3、把beautifulsoup4-4.6.0.tar.gz解压后,放在Python36\目录下,在cmd中...\Python36\beautifulsoup4-4.6.0\下执行命令
python setup.pyinstall ,安装成功不报错。
4、把get-pip.py放在...\Python36\目录下,执行命令:python get-pip.py,安装pip成功。
5、在...\Python36\Scripts目录下,打开cmd,导入requests、pymysql、urllib等模块,执行命令如下
pip installrequests
pip installpymysql
pip installurllib
测试一下python的环境---导入几个包,不报错即可
import requests
from bs4 importBeautifulSoup
import pymysql
fromurllib.request import urlopen
-------------执行app应用信息爬取-----
1、首先把app爬取脚本getmiAppInfo整个文件夹放在...\Python36\Lib\site-packages目录下
2、修改数据库配置文件
\GetAllAppInfo\baseconfig.ini
如下:
[db]
DB_HOST=192.168.2.73
DB_PORT=3306
DB_USERNAME=root
DB_PASSWORD=cecgw
DB_BASEDATA=app
3、需要创建一个mysql数据库,数据库名称为app
执行表创建脚本
------------------------------
-- Tablestructure for appinfo1
------------------------------
DROP TABLE IFEXISTS `appinfo1`;
CREATE TABLE`appinfo1` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`channel` varchar(50) DEFAULT NULL,
`Faclassname` varchar(255) DEFAULT NULL,
`subclassname` varchar(100) DEFAULT NULL,
`appname` varchar(255) DEFAULT NULL,
`score` varchar(50) DEFAULT NULL,
`loadcounts` varchar(50) DEFAULT NULL,
`size` varchar(50) DEFAULT NULL,
`author` varchar(255) DEFAULT NULL,
`updatetime` varchar(50) DEFAULT NULL,
`version` varchar(100) DEFAULT NULL,
`supsystem` varchar(100) DEFAULT NULL,
`suplang` varchar(50) DEFAULT NULL,
`appurl` varchar(255) DEFAULT NULL,
`loadurl` varchar(255) DEFAULT NULL,
`str1` varchar(255) DEFAULT NULL,
`str2` varchar(255) DEFAULT NULL,
`str3` varchar(255) DEFAULT NULL,
`str4` varchar(255) DEFAULT NULL,
`str5` varchar(255) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDBAUTO_INCREMENT=1038 DEFAULT CHARSET=utf8;
4、运行app爬取脚本
打开...\Python36\Lib\site-packages\GetAllAppInfo\目录,打开cmd,
执行命令python RunMain.py
根据渠道说明,输入渠道标号
如输入1,自动执行‘360手机助手’渠道的app应用信息爬取
存储到数据库后,根据loadurl需要下载app.apk包下载到\GetAllAppInfo\pkg,请执行python appDownload.py
注意:
源代码详见
链接:https://pan.baidu.com/s/1ggOJl2j 密码:0auz
1、在Windows操作系统下安装python-3.6.4-amd64.exe
2、配置环境变量
Path变量:如C:\Users\Administrator\AppData\Local\Programs\Python\Python36\
打开cmd命令窗口,输入:python命令,可以进入python 编辑命令行,即可。
3、把beautifulsoup4-4.6.0.tar.gz解压后,放在Python36\目录下,在cmd中...\Python36\beautifulsoup4-4.6.0\下执行命令
python setup.pyinstall ,安装成功不报错。
4、把get-pip.py放在...\Python36\目录下,执行命令:python get-pip.py,安装pip成功。
5、在...\Python36\Scripts目录下,打开cmd,导入requests、pymysql、urllib等模块,执行命令如下
pip installrequests
pip installpymysql
pip installurllib
测试一下python的环境---导入几个包,不报错即可
import requests
from bs4 importBeautifulSoup
import pymysql
fromurllib.request import urlopen
-------------执行app应用信息爬取-----
1、首先把app爬取脚本getmiAppInfo整个文件夹放在...\Python36\Lib\site-packages目录下
2、修改数据库配置文件
\GetAllAppInfo\baseconfig.ini
如下:
[db]
DB_HOST=192.168.2.73
DB_PORT=3306
DB_USERNAME=root
DB_PASSWORD=cecgw
DB_BASEDATA=app
3、需要创建一个mysql数据库,数据库名称为app
执行表创建脚本
------------------------------
-- Tablestructure for appinfo1
------------------------------
DROP TABLE IFEXISTS `appinfo1`;
CREATE TABLE`appinfo1` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`channel` varchar(50) DEFAULT NULL,
`Faclassname` varchar(255) DEFAULT NULL,
`subclassname` varchar(100) DEFAULT NULL,
`appname` varchar(255) DEFAULT NULL,
`score` varchar(50) DEFAULT NULL,
`loadcounts` varchar(50) DEFAULT NULL,
`size` varchar(50) DEFAULT NULL,
`author` varchar(255) DEFAULT NULL,
`updatetime` varchar(50) DEFAULT NULL,
`version` varchar(100) DEFAULT NULL,
`supsystem` varchar(100) DEFAULT NULL,
`suplang` varchar(50) DEFAULT NULL,
`appurl` varchar(255) DEFAULT NULL,
`loadurl` varchar(255) DEFAULT NULL,
`str1` varchar(255) DEFAULT NULL,
`str2` varchar(255) DEFAULT NULL,
`str3` varchar(255) DEFAULT NULL,
`str4` varchar(255) DEFAULT NULL,
`str5` varchar(255) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDBAUTO_INCREMENT=1038 DEFAULT CHARSET=utf8;
4、运行app爬取脚本
打开...\Python36\Lib\site-packages\GetAllAppInfo\目录,打开cmd,
执行命令python RunMain.py
根据渠道说明,输入渠道标号
如输入1,自动执行‘360手机助手’渠道的app应用信息爬取
存储到数据库后,根据loadurl需要下载app.apk包下载到\GetAllAppInfo\pkg,请执行python appDownload.py
注意:
源代码详见
链接:https://pan.baidu.com/s/1ggOJl2j 密码:0auz
相关文章推荐
- python3.6+BeautifulSoup4 爬取360手机助手app应用的信息并存储数据库 批量下载apk
- TensorFlow 1.2.0新版本完美支持Python3.6,windows在cmd中输入pip install tensorflow就能下载应用最新tensorflow
- python爬手入门-爬取百度应用市场apk信息并下载
- WP8__从windowsphone app store 中根据app id获取应用的相关信息(下载网址及图片id等)
- 懒猫试玩app是真的吗,人人都是应用体验师,懒猫最新官方下载最新最全使用教程
- 【python系列】使用 BeautifulSoup 获取 meta 信息
- 应用市场建站系统 171cms app下载站源码
- 利用浏览器 UA 信息解决多平台手机应用下载问题
- pycharm2017.1+anaconda3-5.0.0(python3.6)+selenium-3.8.1 获取大众点评信息
- [Python下载CSDN博客]2. 使用BeautifulSoup分析HTML(二)
- python抓取豌豆荚app数据信息
- [Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
- Python3.6官方文档下载
- iOS应用发布流程(一)------相关app证书的申请、下载以及安装
- Python 教程 安桌APP 开源并免费下载
- Android中如何获取加固后应用App的所有方法信息
- [解决]App应用刚更新在App store中下载非常缓慢的问题
- [置顶] ExtJs4.2应用:根据指定格式显示列字段信息
- Python 如何获取Android应用内存使用和CPU占用信息,并且时时展示曲线图形。
- API21开始getRunningAppProcesses只返回应用本身的进程信息