您的位置：首页 > 编程语言 > Python开发

python爬虫入门:2--爬取百度贴吧内容

2017-07-26 14:16 393 查看

我们要爬取的是百度贴吧 –神盾局吧–中的帖子信息

url = “http://tieba.baidu.com/f?kw=%E7%A5%9E%E7%9B%BE%E5%B1%80&ie=utf-8”

我们往后翻页发现第二页

url = “http://tieba.baidu.com/f?kw=%E7%A5%9E%E7%9B%BE%E5%B1%80&ie=utf-8&pn=50”

往后页数依次累加50，这就说明每页都有50个帖子，且参数由&pn=0 -> &pn=50 -> &pn=100 -> …

今天我们爬取前3页的帖子，也就是150个帖子的信息

目标分析：

1: 选取要爬取的目标内容，今天我们爬取每个的标题，内容，发帖时间，作者，当然也可以爬取其他内容

2: 观察源码，找到对应信息处在的标签和位置

3: 抓取，显示，存储

下面我们开始工作打开url

咦，是不是发现这个url现在看到的和从网页上打开的不一样，这是因为

%E7%A5%9E%E7%9B%BE%E5%B1%80 就是中文，只不过是经过utf-8编码过的中文

下面我们观察源码找出我们需要的信息

一个月前写的，当时有事博客就没写，现在也先不写看到这了自己先试着做做，哈哈

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航