Pholcus初探
2016-03-27 23:05
686 查看
Pholcus(幽灵蛛)是一款纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;同时她还支持横纵向两种抓取模式,支持模拟登录和任务暂停、取消等一系列高级功能。
今天第一次使用pholcus抓取文章数据,记录下操作步骤,仅供参考。
软件名称及版本:
centos 7
go 1.6
pholcus v0.85
mysql 5.7
1、安装go
wget http://www.golangtc.com/static/go/1.6/go1.6.linux-amd64.tar.gz
tar -xzvf go1.6.linux-amd64.tar.gz
mv go /home/web/go
export GOROOT=/home/web/go
export GOBIN=$GOROOT/bin
export PATH=$PATH:$GOBIN
export GOPATH=/home/web/gopath
source /etc/profile
2、安装pholcus
go get -u -v github.com/henrylee2cn/pholcus
3、编译、配置、运行
创建项目:pholcus.go
配置pholcus.pkg下的config.ini
[mysql]
conncap=2048
connstring=root:password@tcp(127.0.0.1:3306)
go install 或者 go build pholcus.go
测试用例:./pholcus -_ui=cmd -a_mode=0 -c_spider=2 -a_outtype=mysql -a_thread=10 -a_dockercap=10 -a_pause=300 -a_proxyminute=0 -a_success=true -a_failure=true
今天第一次使用pholcus抓取文章数据,记录下操作步骤,仅供参考。
软件名称及版本:
centos 7
go 1.6
pholcus v0.85
mysql 5.7
1、安装go
wget http://www.golangtc.com/static/go/1.6/go1.6.linux-amd64.tar.gz
tar -xzvf go1.6.linux-amd64.tar.gz
mv go /home/web/go
export GOROOT=/home/web/go
export GOBIN=$GOROOT/bin
export PATH=$PATH:$GOBIN
export GOPATH=/home/web/gopath
source /etc/profile
2、安装pholcus
go get -u -v github.com/henrylee2cn/pholcus
3、编译、配置、运行
创建项目:pholcus.go
package main import ( "github.com/henrylee2cn/pholcus/exec" _ "github.com/pholcus/spider_lib" // 此为公开维护的spider规则库 // _ "spider_lib_pte" // 同样你也可以自由添加自己的规则库 ) func main() { // 设置运行时默认操作界面,并开始运行 // 运行软件前,可设置 -a_ui 参数为"web"、"gui"或"cmd",指定本次运行的操作界面 // 其中"gui"仅支持Windows系统 exec.DefaultRun("cmd") }
配置pholcus.pkg下的config.ini
[mysql]
conncap=2048
connstring=root:password@tcp(127.0.0.1:3306)
go install 或者 go build pholcus.go
测试用例:./pholcus -_ui=cmd -a_mode=0 -c_spider=2 -a_outtype=mysql -a_thread=10 -a_dockercap=10 -a_pause=300 -a_proxyminute=0 -a_success=true -a_failure=true
相关文章推荐
- MySQL中的integer 数据类型
- MySQL存储过程
- mysql中int、bigint、smallint 和 tinyint的区别与长度
- mysql load data 导出、导入 csv
- source命令执行SQL脚本文件
- MySQL创建用户及权限控制
- MySQL管理数据表
- linux下mysql添加用户
- mysql procedure
- mysql触发器
- MySQL 备份和恢复策略
- mac下安装mysql(转载)
- mysql 修改编码 Linux/Mac/Unix/通用(杜绝修改后无法启动的情况!)
- MySQL数据的导出、导入(mysql内部命令:mysqldump、mysql)
- mysql数据行转列
- Linux下修改MySQL编码的方法
- MySQL Server 日志
- MySQL 安全事宜
- MySQL 备份与恢复