您的位置:首页 > 编程语言 > Python开发

python爬虫入门:2--爬取百度贴吧内容

2017-07-26 14:16 393 查看
我们要爬取的是百度贴吧 –神盾局吧–中的帖子信息

url = “http://tieba.baidu.com/f?kw=%E7%A5%9E%E7%9B%BE%E5%B1%80&ie=utf-8

我们往后翻页发现第二页

url = “http://tieba.baidu.com/f?kw=%E7%A5%9E%E7%9B%BE%E5%B1%80&ie=utf-8&pn=50

往后页数依次累加50, 这就说明每页都有50个帖子,且参数由&pn=0 -> &pn=50 -> &pn=100 -> …

今天我们爬取前3页的帖子, 也就是150个帖子的信息

目标分析:

1: 选取要爬取的目标内容, 今天我们爬取每个的标题, 内容, 发帖时间,作者,当然也可以爬取其他内容

2: 观察源码, 找到对应信息处在的标签和位置

3: 抓取, 显示, 存储

下面我们开始工作 打开url

咦, 是不是发现这个url现在看到的和从网页上打开的 不一样, 这是因为

%E7%A5%9E%E7%9B%BE%E5%B1%80 就是中文,只不过是经过utf-8编码过的中文

下面我们观察源码 找出我们需要的信息

一个月前 写的,当时有事博客就没写 ,现在也先不写 看到这了 自己先试着做做 ,哈哈
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: