您的位置:首页 > 编程语言 > Java开发

eclipse创建scrapy项目

2017-06-22 00:00 501 查看
1.

您必须创建一个新的Scrapy项目。 进入您打算存储代码的目录中(比如否F:/demo),运行下列命令:

scrapy startproject tutorial

2.在eclipse中创建一个python项目 ,在F:/demo目录下 把刚创建的项目 tutorial 和scrapy.cfg配置文件拷入 eclipse下的python项目中

3.在python项目下tutorial/spiders下创建一个py文件(例如:myblog.py)
代码:

# -*- coding: utf-8 -*-

import scrapy

from tutorial.items import IteyeItem #导入item

from scrapy.selector import HtmlXPathSelector

class MyblogSpider(scrapy.Spider):

name = "myblog"

allowed_domains = ["886.iteye.com"] #服务器 post

start_urls = (

'http://886.iteye.com/',

'http://st4024589553.iteye.com/'

)

def parse(self, response):

lis = response.xpath("//div[@class='blog_main']/div[1]/h3") #增加xpath

item = IteyeItem()

for li in lis:

title= li.xpath('a/text()').extract()[0]

print li.xpath('a/text()').extract()[0]

item['title']=title

item['link']=li.xpath('a/
@href ').extract()

yield item

4.在tutorial下创建 cmdline.py 文件

代码:

# coding=utf-8

'''

Created on 2017年2月5日

@author : chenkai

'''

import scrapy.cmdline

'''

cmdline.py用于启动scrapy项目,其中argv第三个参数为启动爬虫的名字。如下图

'''

if __name__ == '__main__':

scrapy.cmdline.execute(argv=['scrapy','crawl','myblog']) #myblog myblog.py中name

5.

代码编辑好后,右键cmdline.py -->Debug As -->Run config.... -->右键Python Run-->new
-->project 选择你创建的python项目 --》Main Module 选择项目下的cmdline.py文件即可
apply一下

6.编辑tutorial/items.py 文件

代码:

# -*- coding: utf-8 -*-

import scrapy

class IteyeItem(scrapy.Item):

title = scrapy.Field()

link = scrapy.Field()

7.
(1)现在可以直接运行cmdline.py文件 run 输出信息
(2)也可以在提示符窗口里运行,cmd -->scrapy crawl myblog 同样可以启动
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python scrapy eclipse