您的位置:首页 > 数据库 > SQL

Pholcus初探

2016-03-27 23:05 686 查看
Pholcus(幽灵蛛)是一款纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;同时她还支持横纵向两种抓取模式,支持模拟登录和任务暂停、取消等一系列高级功能。

今天第一次使用pholcus抓取文章数据,记录下操作步骤,仅供参考。

软件名称及版本:

centos 7

go 1.6

pholcus v0.85

mysql 5.7

1、安装go

wget http://www.golangtc.com/static/go/1.6/go1.6.linux-amd64.tar.gz
tar -xzvf go1.6.linux-amd64.tar.gz

mv go /home/web/go

export GOROOT=/home/web/go

export GOBIN=$GOROOT/bin

export PATH=$PATH:$GOBIN

export GOPATH=/home/web/gopath

source /etc/profile

2、安装pholcus

go get -u -v github.com/henrylee2cn/pholcus

3、编译、配置、运行

创建项目:pholcus.go

package main

import (

    "github.com/henrylee2cn/pholcus/exec"

    _ "github.com/pholcus/spider_lib" // 此为公开维护的spider规则库

    // _ "spider_lib_pte" // 同样你也可以自由添加自己的规则库

)

func main() {

    // 设置运行时默认操作界面,并开始运行

    // 运行软件前,可设置 -a_ui 参数为"web"、"gui"或"cmd",指定本次运行的操作界面

    // 其中"gui"仅支持Windows系统

    exec.DefaultRun("cmd")

}


配置pholcus.pkg下的config.ini

[mysql]

conncap=2048

connstring=root:password@tcp(127.0.0.1:3306)

go install 或者 go build pholcus.go

测试用例:./pholcus -_ui=cmd -a_mode=0 -c_spider=2 -a_outtype=mysql -a_thread=10 -a_dockercap=10 -a_pause=300 -a_proxyminute=0 -a_success=true -a_failure=true
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息