python爬虫入门:2--爬取百度贴吧内容
2017-07-26 14:16
393 查看
我们要爬取的是百度贴吧 –神盾局吧–中的帖子信息
url = “http://tieba.baidu.com/f?kw=%E7%A5%9E%E7%9B%BE%E5%B1%80&ie=utf-8”
我们往后翻页发现第二页
url = “http://tieba.baidu.com/f?kw=%E7%A5%9E%E7%9B%BE%E5%B1%80&ie=utf-8&pn=50”
往后页数依次累加50, 这就说明每页都有50个帖子,且参数由&pn=0 -> &pn=50 -> &pn=100 -> …
今天我们爬取前3页的帖子, 也就是150个帖子的信息
目标分析:
1: 选取要爬取的目标内容, 今天我们爬取每个的标题, 内容, 发帖时间,作者,当然也可以爬取其他内容
2: 观察源码, 找到对应信息处在的标签和位置
3: 抓取, 显示, 存储
下面我们开始工作 打开url
咦, 是不是发现这个url现在看到的和从网页上打开的 不一样, 这是因为
%E7%A5%9E%E7%9B%BE%E5%B1%80 就是中文,只不过是经过utf-8编码过的中文
下面我们观察源码 找出我们需要的信息
一个月前 写的,当时有事博客就没写 ,现在也先不写 看到这了 自己先试着做做 ,哈哈
url = “http://tieba.baidu.com/f?kw=%E7%A5%9E%E7%9B%BE%E5%B1%80&ie=utf-8”
我们往后翻页发现第二页
url = “http://tieba.baidu.com/f?kw=%E7%A5%9E%E7%9B%BE%E5%B1%80&ie=utf-8&pn=50”
往后页数依次累加50, 这就说明每页都有50个帖子,且参数由&pn=0 -> &pn=50 -> &pn=100 -> …
今天我们爬取前3页的帖子, 也就是150个帖子的信息
目标分析:
1: 选取要爬取的目标内容, 今天我们爬取每个的标题, 内容, 发帖时间,作者,当然也可以爬取其他内容
2: 观察源码, 找到对应信息处在的标签和位置
3: 抓取, 显示, 存储
下面我们开始工作 打开url
咦, 是不是发现这个url现在看到的和从网页上打开的 不一样, 这是因为
%E7%A5%9E%E7%9B%BE%E5%B1%80 就是中文,只不过是经过utf-8编码过的中文
下面我们观察源码 找出我们需要的信息
一个月前 写的,当时有事博客就没写 ,现在也先不写 看到这了 自己先试着做做 ,哈哈
相关文章推荐
- python入门,自制小爬虫获得百度贴吧内容
- python3 [爬虫入门实战] 爬虫之使用selenium 爬取百度招聘内容并存mongodb
- Python爬虫实战(1)——百度贴吧抓取帖子并保存内容和图片
- Python爬虫入门学习例子之百度贴吧
- Python 爬虫 多线程爬取百度贴吧内容,并将内容存到本地
- 从零开始写Python爬虫 --- 1.5 爬虫实践: 获取百度贴吧内容
- Python3学习(34)--简单网页内容抓取(爬虫入门一)
- [Python爬虫之路2]爬取百度贴吧内容
- python爬虫入门 实战(二)---爬百度贴吧
- python3 [爬虫入门实战] 爬虫之selenium 模拟QQ登陆抓取好友说说内容(暂留)
- 【Python3.6爬虫学习记录】(四)爬取百度贴吧某帖子内容及图片
- 【python学习】网络爬虫——爬百度贴吧帖子内容
- [python爬虫]利用urllib2爬取百度贴吧帖子相关内容
- python爬虫入门(2)如何爬微博内容,及图片
- Python 爬虫模块 bs4 实战一:获取百度贴吧内容
- python百度贴吧爬虫,以及爬虫简要入门
- Python爬虫实战入门五:获取JS动态内容—爬取今日头条
- Python爬虫实战入门五:获取JS动态内容—爬取今日头条
- python3 [爬虫入门实战]爬虫之mongoDB数据库的安装配置与可视化
- python爬虫爬取百度贴吧的信息