您的位置：首页 > 其它

网易云自动化爬虫方案，24小时爬取10万首音乐信息，30万条用户信息，100万个热评

2020-06-11 04:21 761 查看

高效自动化网易云爬虫系统，自动寻找未爬取的歌曲、用户进行数据爬取并无限循环，理论上只要时间够就能爬取几乎所有网易云的歌曲和用户信息。笔者用大约24小时的时间就获取了如题的战果。

先展示一下成果：

music.csv存储每首歌的歌曲id、歌名、歌手、专辑、专辑图片url和评论数量信息，部分截图：

comment.csv存储每首歌的热评，包括评论所属歌曲id、评论用户id、评论获赞数、评论内容和评论时间信息。部分截图：

user.csv存储用户信息，包括用户id、昵称、等级、vip类型、生日、所在地区、粉丝数量、头像url等信息。部分截图：

程序设计思路

在开始之前，先隆重介绍一个python库：cloudmusic，这个库可以让网易云爬虫变得十分简单，非常适合大规模爬虫系统的设计，可以节省很多很多代码。官网：http://cloudmusic.cool/
github：https://github.com/p697/cloudmusic

我的思考流程大约是这样：

网易云的的每首歌都有自己独立的id，而只要获得了歌曲id就可以通过网易的各种api接口获取歌曲的相关数据。那么如何获取歌曲id就成为了关键。

假如我们只需要爬单个歌曲的信息，就用 Get Lucky 这首歌为例。首先我们去网易云官网找到Get Lucky这首歌的歌曲id，再借助python的cloudmusic库，只要这么写即可：

import cloudmusic

music = cloudmusic.getMusic(26349642)
# 不会从网易云官网获取某首歌的id，请自行百度
print("歌曲名称：{}".format(music.name))
print("歌手：{}".format(music.artist))

ccount = music.getCommentsCount()
print("评论数量：{}".format(ccount))

运行结果如下：

也可以通过关键字搜索来获取，代码示例：

music = cloudmusic.search("Get Lucky")[0]
print("歌曲名称：{}".format(music.name))
print("歌手：{}".format(music.artist))

ccount = music.getCommentsCount()
print("评论数量：{}".format(ccount))

运行结果和上面相同。

能获取这些数据，我们就能把数据保存在本地csv或数据库中。而如何批量的获取歌曲id就是关键。只要有个歌曲id，就可以轻松的获取这些歌曲信息。那么除了去官网查看之外，还有什么方法可以获取歌曲id呢？

获取歌曲id方法一：从歌单里获取
熟悉网易云爬虫或网易api的朋友肯定知道，歌单中的每首歌都是通过歌曲id来定位的。只要有了一个歌单，我们就可以获取这个歌单内所有的歌曲id。而cloudmusic库对这一特性进行了包装，可以直接生成一个歌单内所有歌曲的music对象，每个music对象都包含了这首歌的全部信息。而这里又涉及到网易云的歌单id。
代码示例：

musiclist = cloudmusic.getPlaylist(2850578667)
# 通过歌单id来定位歌单
for music in musiclist:
print("歌曲名称：{}".format(music.name))

结果就不展示了，musiclist是music对象组成的列表，循环这个列表就可以获取歌单内每首歌的各种信息。不会使用cloudmusic库的话可以去看看官网或者github看看示例和文档，链接在上面。

问题又来了：如何获取歌单id呢？可以从用户创建和收藏的歌单里获取。代码如下：

user = cloudmusic.getUser(265360741)
# 通过用户id获取user对象
playlists = user.getPlayList()

上述代码中，变量playlists包含了该用户创建和收藏的所有歌单。是不是很方便？但这里又遇到一个问题了：怎么获取用户id呢？

获取歌曲id方法二：从用户的听歌排行里获取

代码如下：

user = cloudmusic.getUser(265360741)
# 通过用户id获取user对象
musiclist = user.getRecord()

变量musiclist及包含了用户听歌排行中的所有我们想要的歌曲id。但是用户id该怎么获取呢？

上述两种获取歌曲id的方法都需要用户id。也就是说，只要有了用户id，就会有源源不断的歌曲id。如何获取用户id呢？一个方案是从评论中获取。先获取一首歌的评论，每条评论的评论用户就可以拿来用了！代码如下：

music = cloudmusic.getMusic(26349642)
# 先老样子通过歌曲id获得music对象
comments = music.getHotComments()
# 获取本首歌的所有热评,返回值是列表
for comment in comments:
print(comment['userId'])
# 打印出每条评论的用户id

看到这里，读者可能就会问了：饶了一大圈，还是要通过歌曲id，才能获得用户id呀。但这正是我们想要的，不知道大家有没有发现，这是一个圈，一个永无止境的圈。我们先人工找到一首歌的歌曲id，通过这个歌曲id获得了每条热评的用户id，再通过用户id获取用户的歌单或听歌排行，通过歌单或听歌排行获取歌曲id，再通过歌曲id获取用户id，再…

总结一下，这个圈长这样：

歌曲id评论用户id歌单或听歌排行

这样的话，只要一个起步的歌曲id，就可以按着这个圈一圈一圈的转，永无止境。只要转到的歌曲、用户或评论是没爬取过的，就把数据存储到本地。只要ip不被封，这个圈就可以一直转下去。

这就是我的思路，之后花了一天多的时间把他变为了现实。中间也遇到了一些困难，比如我要歌曲信息、用户信息、评论信息一起爬，速度太慢，但多线程一起跑太快了又容易被封ip。于是加入了ip池等设计，就可以快乐的爬爬爬了。最后开了一台云服务器，50线程并行爬了一整天，效果还算比较满意。

具体的代码我稍后会整理一下发出来。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航