Python爬虫(2)——爬取微博内容
2017-04-16 15:09
253 查看
本文通过一种简单的方式来抓取华为终端官方微博的内容信息。首先抓取登录微博的cookie,然后使用cookie来登录微博。
具体的代码如下所示:
运行结果如下所示:
![](https://img-blog.csdn.net/20170416150401660?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvRmx5U2t5MTk5MQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
当然,上面的代码一次只能实现爬取少量的内容信息,还很简陋。后面要想办法解决多页连续爬取和自动分类存储的问题。
具体的代码如下所示:
# -*- coding: utf-8 -*- """ Created on Sun Apr 16 14:16:32 2017 @author: zch """ import requests from bs4 import BeautifulSoup import time import pandas as pd #放入cookie信息 cook = {"Cookie":"_T_WM=..."} #爬取华为终端官方微博的内容 url = "https://weibo.cn/huaweidevice" html = requests.get(url,cookies=cook).content #使用Beautiful来解析网页内容。 soup =BeautifulSoup(html,"html.parser") r = soup.findAll('span',attrs={"class" : "ctt"}) for e in r: print(e.text)
运行结果如下所示:
当然,上面的代码一次只能实现爬取少量的内容信息,还很简陋。后面要想办法解决多页连续爬取和自动分类存储的问题。
相关文章推荐
- python爬虫批量抓取新浪微博用户ID及用户信息、微博内容
- python爬虫实战(六)--------新浪微博(爬取微博帐号所发内容,不爬取历史内容)
- python爬虫爬取指定用户微博图片及内容,并进行微博分类及使用习惯分析,生成可视化图表
- python爬虫入门(2)如何爬微博内容,及图片
- 最新Python新浪微博爬虫2014-07
- python xpath介绍和新闻内容爬虫
- Python+Selenium实现微博自动化爬虫
- 爬虫三部曲之(三):Python模拟登录云笔记网站并爬取笔记内容
- 用Python写一个简单的微博爬虫
- 零基础写python爬虫之使用urllib2组件抓取网页内容
- Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
- 用Python编写简单的微博爬虫
- Python爬虫爬取百度百科内容实例
- Python爬虫,抓取淘宝商品评论内容
- python爬虫主要就是五个模块:爬虫启动入口模块,URL管理器存放已经爬虫的URL和待爬虫URL列表,html下载器,html解析器,html输出器 同时可以掌握到urllib2的使用、bs4(BeautifulSoup)页面解析器、re正则表达式、urlparse、python基础知识回顾(set集合操作)等相关内容。
- python 爬虫如何获取js里面的内容
- python爬虫实现带附件+html内容以及图片的邮件发送
- 从零开始写Python爬虫 --- 1.5 爬虫实践: 获取百度贴吧内容
- Python 爬虫 多线程爬取百度贴吧内容,并将内容存到本地
- python爬虫入门 实战(四)---爬“榜姐”话题微博及热门评论