简单实用的php爬虫系统
2016-09-09 10:14
239 查看
通过简单的配置就爬取到网页内容,代码在github,欢迎大家一起使用。
* 代码提供的两个示例。由于网页改版,可能已经不能用了,下载后按自己的实际需求来
https://github.com/wxxiong6/crawl
│ crawl.sql
│ LICENSE
│ README
│ run 系统入口程序
│
├─code
│ ├─config 配置文件
│ │ config.php
│ │ dbconfig.php
│ │
│ └─library 类库
│ │ App.php
│ │ Crawl.php
│ │ CrawlCallback.php
│ │ Import.php
│ │ Loader.php
│ │
│ └─db 数据库
│ MysqlPDO.php
│
├─data 数据
│
├─log 日志目录
│
├─tmp
└─web web目录
“`
* 代码提供的两个示例。由于网页改版,可能已经不能用了,下载后按自己的实际需求来
修改正规提取规则。
https://github.com/wxxiong6/crawl
php爬虫系统
程序只支持CLI安装程序
1.dbconfig.php 添加正确的数据库配置
2. 安装程序
php run install
启动程序
安装完成后,在setting表添加来源站点及正则提取规则。
启动程序 (参数是 setting 表id)
php run run 1
清除项目数据
PHP php run clear
完整代码目录
“`PHP│ crawl.sql
│ LICENSE
│ README
│ run 系统入口程序
│
├─code
│ ├─config 配置文件
│ │ config.php
│ │ dbconfig.php
│ │
│ └─library 类库
│ │ App.php
│ │ Crawl.php
│ │ CrawlCallback.php
│ │ Import.php
│ │ Loader.php
│ │
│ └─db 数据库
│ MysqlPDO.php
│
├─data 数据
│
├─log 日志目录
│
├─tmp
└─web web目录
“`
相关文章推荐
- 一个关于if else容易迷惑的问题
- Python3写爬虫(四)多线程实现数据爬取
- PHP5.2.*防止Hash冲突拒绝服务攻击的Patch
- 深入理解PHP之匿名函数
- Scrapy的架构介绍
- JSP/PHP基于Ajax的分页功能实现
- 爬虫笔记
- 关于PHP通过PDO用中文条件查询MySQL的问题。
- 什么是设计模式
- PHP数据库长连接mysql_pconnect的细节
- Php Installing An Expansion
- Laravel5.3 表单验证中文报错提示语言包
- rem : web app适配的秘密武器
- jquery高级应用之Deferred对象
- 关于浮动与清除浮动,你应该知道的
- 数组reduce方法的高级技巧
- php7 读取php.ini[4]
- PHP+Apache在Windows 9x下的安装和配置