nodejs 写爬虫爬取最近上映电影数据
2017-01-20 19:21
369 查看
直接上代码:这是http模块
主程序入口:
效果展示:
'use strict' //引入内建和第三方模块 const https = require("https") const url = require("url") const Promise = require("bluebird") //创建启动服务模块 function start(url){ return new Promise((resolve,reject)=>{ https.get(url,(res)=>{ const statusCode = res.statusCode const contentType = res.headers['content-type'] let error if(statusCode != 200){ error = new Error(`请求失败.\n`+`code:${statusCode}`) } if(error){ console.log(error) res.resume() return } res.setEncoding("utf-8") let getData = "" res.on("data",(datachunk)=>{ getData += datachunk }) res.on("end",()=>{ resolve(getData) }) }).on("error",(e)=>{ reject(e) console.log("获取数据出错") }) }) } exports.start = start
主程序入口:
const crawler = require("./crawler") const querystring = require("querystring") const cheerio = require("cheerio") const fs = require("fs") //url const douban_url = "https://movie.douban.com/nowplaying/chengdu/" crawler.start(douban_url).then(res=>{ var $ = cheerio.load(res) var data = [] $('#nowplaying .list-item').each(function(i,e){ var obj = "obj" + i obj = {} obj.title = $(e).attr("data-title")+"\n" obj.score = $(e).attr("data-score")+"\n" obj.src = $('#nowplaying .list-item img').attr("src")+"\n" data.push(obj) }) fs.writeFileSync("./get_data/data.txt",JSON.stringify(data)); })
效果展示:
相关文章推荐
- nodejs爬虫抓取数据之编码问题
- nodejs爬虫抓取数据乱码问题总结
- 爬虫一例,试用nodejs和superagent爬某购物网站网数据(一)。
- Nodejs实现爬虫抓取数据实例解析
- python--爬虫电影数据
- 最近用htmlunit做网络爬虫 遇到拿不到初始化js加载的数据的问题 最近解决了 写个简单的例子
- nodejs爬虫抓取异步数据案例
- 第一个nodejs爬虫:爬取豆瓣电影图片
- nodejs爬虫抓取数据之编码问题
- python学习4:获取豆瓣上映电影数据
- nodeJs爬虫获取数据简单实现代码
- Java豆瓣电影爬虫——抓取电影详情和电影短评数据
- Nodejs 实现爬虫的改造:Promise优化、动态页面数据的获取、多个页面并发爬取
- nodejs爬虫抓取数据乱码问题总结
- java 爬虫实现爬豆瓣电影数据并存入mysql数据库
- Java豆瓣电影爬虫——抓取电影详情和电影短评数据
- 使用nodejs 爬虫框架 Crawler爬取全国省市区的数据
- Python爬虫,看看我最近博客都写了啥,带你制作高逼格的数据聚合云图
- 动态网站数据采集 - 时光网电影信息爬虫
- nodejs简单爬虫->获取分页数据->下载多特的应用信息