您的位置：首页 > 编程语言 > Python开发

搜索引擎数据源爬取——python scrapy

2015-11-03 21:54 771 查看

我选取的是爬取百度知道的html 作为我的搜索源数据，目前先打算做网页标题的搜索，选用了 python 的 scrapy 库来对网页进行爬取，爬取网页的标题，url，以及html，用sqlist3来对爬取的数据源进行管理。

爬取的过程是一个深度优先的过程，设定四个起始 url ，然后维护一个数据库，数据库中有两个表，一个 infoLib，其中存储了爬取的主要信息：标题，url ，html；另一个表为urlLib，存储已经爬取的url，是一个辅助表，在我们爬取每个网页前，需要先判断该网页是否已爬过（是否存在urlLib中）。在数据存储的过程中，使用了SQL的少量语法，由于我之前学过
mysql ，这块处理起来比较驾轻就熟。

深度优先的网页爬取方案是：给定初始 url，爬取这个网页中所有 url，继续对网页中的 url 递归爬取。代码逐段解析在下面，方便自己以后回顾。

1.建一个 scrapy 工程：

关于建工程，可以参看这个scrapy入门教程，通过运行:

scrapy startproject ***

在当前目录下建一个scrapy 的项目，然后在 spiders 的子目录下建立一个 .py文件，该文件即是爬虫的主要文件，注意：其中该文件的名字不能与该工程的名字相同，否则，之后调用跑这个爬虫的时候将会出现错误，见ImportError。

2.具体写.py文件：

import scrapy 
from scrapy import Request
import sqlite3

class rsSpider(scrapy.spiders.Spider):        #该类继承自 scrapy 中的 spider
    name = "zhidao"                           #将该爬虫命名为 “知道”，在执行爬虫时对应指令将为： scrapy crawl zhidao
    #download_delay = 1                       #只是用于控制爬虫速度的，1s/次，可以用来对付反爬虫
    allowed_domains = ["zhidao.baidu.com"]    #允许爬取的作用域
    url_first = 'http://zhidao.baidu.com/question/'   #用于之后解析域名用的短字符串
    start_urls = ["http://zhidao.baidu.com/question/647795152324593805.html", #python
                  "http://zhidao.baidu.com/question/23976256.html", #database
                  "http://zhidao.baidu.com/question/336615223.html", #C++
                  "http://zhidao.baidu.com/question/251232779.html", #operator system
                  "http://zhidao.baidu.com/question/137965104.html"  #Unix programing
                  ] #定义初始的 url ，有五类知道起始网页
    
    #add database
    connDataBase = sqlite3.connect("zhidao.db")  #连接到数据库“zhidao.db”
    cDataBase = connDataBase.cursor()            #设置定位指针
    cDataBase.execute('''CREATE TABLE IF NOT EXISTS infoLib           
        (id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)''')  
#通过定位指针操作数据库，若zhidao.db中 infoLib表不存在，则建立该表，其中主键是自增的 id（用于引擎的docId）,下一列是文章的标题，然后是url，最后是html
    
    #url dataBase
    cDataBase.execute('''CREATE TABLE IF NOT EXISTS urlLib
        (url text PRIMARY KEY)''')
#通过定位指针操作数据库，若zhidao.db中urlLib表不存在，则建立该表，其中只存了 url，保存已经爬过的url，之所以再建一个表，是猜测表的主键应该使用哈希表存储的，查询速度较快，此处其实也可以用一个外键将两个表关联起来

2. .py文件中的parse函数：

.py文件中的parse函数将具体处理url返回的 response，进行解析，具体代码中说明：

def parse(self,response):
        pageName = response.xpath('//title/text()').extract()[0]          #解析爬取网页中的名称
        pageUrl = response.xpath("//head/link").re('href="(.*?)"')[0]     #解析爬取网页的 url，并不是直接使用函数获取，那样会夹杂乱码  
        pageHtml = response.xpath("//html").extract()[0]                  #获取网页html
        
        # judge whether pageUrl in cUrl
        if pageUrl in self.start_urls:                                    
	#若当前url 是 start_url 中以一员。进行该判断的原因是，我们对重复的 start_url 中的网址将仍然进行爬取，而对非 start_url 中的曾经爬过的网页将不再爬取
            self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(pageUrl,))
            lines = self.cDataBase.fetchall()
            if len(lines):               #若当前Url已经爬过
                pass                     #则不再在数据库中添加信息，只是由其为跟继续往下爬
            else:                        #否则，将信息爬入数据库
                 self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
                 self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
        else:     #此时进入的非 url 网页一定是没有爬取过的（因为深入start_url之后的网页都会先进行判断，在爬取，在下面的for循环中判断）
            self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
            self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
        
        self.connDataBase.commit()   #保存数据库的更新
        
        print "-----------------------------------------------" #输出提示信息，没啥用
        

        
        for sel in response.xpath('//ul/li/a').re('href="(/question/.*?.html)'):  #抓出所有该网页的延伸网页，进行判断并对未爬过的网页进行爬取
            sel = "http://zhidao.baidu.com" + sel                                 #解析出延伸网页的url
            self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(sel,)) #判断该网页是否已在数据库中
            lines = self.cDataBase.fetchall()
            if len(lines) == 0:                                                   #若不在，则对其继续进行爬取
                yield Request(url = sel, callback=self.parse)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航