Scrapy爬虫(3)爬取中国高校前100名并写入MongoDB
2017-11-28 13:06
399 查看
在以前 的分享中,我们利用urllib和BeautifulSoup模块爬取中国高校排名前100名并将其写入MySQL.在本次分享中,我们将会用到Scrapy和BeautifulSoup模块,来爬取中国高校排名前100名并将其写入MongoDB数据库。爬取的网页为:http://gaokao.xdf.cn/201702/10612921.html, 截图如下(部分):
首先登陆MongoDB数据库,创建好testdb数据库和university_rank集合(collection)。然后开始着手写Scrapy爬虫。
完整的Python代码如下:
Scrapy爬虫的运行结果如下:
接下来我们去robo3t中查看mongodb数据库,其中的university_rank集合如下:
Bingo,我们成功地把数据写入了mongodb数据库!
本次分享到此结束, 欢迎大家批评与交流~~
首先登陆MongoDB数据库,创建好testdb数据库和university_rank集合(collection)。然后开始着手写Scrapy爬虫。
完整的Python代码如下:
#import modules import bs4 import scrapy import pymongo from bs4 import BeautifulSoup from pymongo import MongoClient class UniversityRankSpider(scrapy.Spider): name = "university-rank" #name of spider start_urls = ['http://gaokao.xdf.cn/201702/10612921.html',] #url of website def parse(self, response): #parse function content = response.xpath("//tbody").extract()[0] soup = BeautifulSoup(content, "lxml") #use BeautifulSoup table = soup.find('tbody') count = 0 lst = [] # list to save data from the table for tr in table.children: #BeautifulSoup grammmer if isinstance(tr, bs4.element.Tag): td = tr('td') if count >= 2: #ingore the first line lst.append([td[i]('p')[0].string.replace('\n','').replace('\t','') for i in range(8)]) count += 1 conn = MongoClient('mongodb://localhost:27017/') #connect mongodb db = conn.testdb for item in lst: #insert data into university_rank table db.university_rank.insert([ {'rank':'%s'%item[0], 'university':'%s'%item[1], 'address':'%s'%item[2], 'local_rank':'%s'%item[3], 'total grade':'%s'%item[4], 'type':'%s'%item[5], 'star rank':'%s'%item[6], 'class':'%s'%item[7]}, ]) print 'Successfully downloading data from website, and write it to mongodb database!'
Scrapy爬虫的运行结果如下:
接下来我们去robo3t中查看mongodb数据库,其中的university_rank集合如下:
Bingo,我们成功地把数据写入了mongodb数据库!
本次分享到此结束, 欢迎大家批评与交流~~
相关文章推荐
- Python爬虫——爬取中国高校排名前100名并写入MySQL
- scrapy_redis分布式爬虫 从redis数据库写入MongoDB中
- scrapy爬虫成长日记之将抓取内容写入mysql数据库
- python3 [爬虫入门实战]scrapy爬取盘多多五百万数据并存mongoDB
- Python3 大型网络爬虫实战 004 — scrapy 大型静态商城网站爬虫项目编写及数据写入数据库实战 — 实战:爬取淘宝
- Scrapy爬虫(6)爬取银行理财产品并存入MongoDB(共12w+数据)
- python3 [爬虫入门实战]爬虫之scrapy爬取游天下南京短租房存mongodb
- Scrapy 爬虫实例 抓取豆瓣小组信息并保存到mongodb中 推荐
- 三十二、scrapy爬虫抓取网页写入mysql数据库
- Python MySQL安装+Scrapy爬虫将Item写入mysql数据库
- 利用scrapy和MongoDB来开发一个爬虫
- 第三百六十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中
- 【Python3爬虫】Scrapy+MongoDB+MySQL
- 运维学python之爬虫高级篇(七)scrapy爬取知乎关注用户存入mongodb
- Python3[爬虫实战] 爬虫之scrapy爬取爱上程序网存MongoDB(android模块)
- 手把手教你scrapy + mongodb 爬虫爬取GooglePlay
- Python scrapy爬虫爬取伯乐在线全部文章,并写入数据库
- scrapy 爬虫怎么写入日志和保存信息
- python3 [爬虫入门实战]scrapy爬取盘多多五百万数据并存mongoDB
- 利用scrapy和MongoDB来开发一个爬虫