(python)热门话题的某些微博评论和转发数的抓取
2015-04-28 12:58
711 查看
一:通过前一篇文章的方法提取热门话题,由于蛋疼的新浪wei~b~o~Api开发的太少,申请高级接口也很墨迹==,博主弄了好久没申请成功。自己只能通过热门话题搜索得到url,
然后爬数据,抓取发布微博的用户,以及对应微博的转发数和评论列表
二:例子:热门话题:“男生也来大姨妈”
result = urllib2.urlopen('http://s.weibo.com/weibo/%E7%94%B7%E7%94%9F%E4%B9%9F%E6%9D%A5%E5%A4%A7%E5%A7%A8%E5%A6%88&xsort=hot&Refer=hotmore')#打开你得到的url
res = result.read()
reg3 = re.compile(r'<p class=\\"comment_txt\\" node-type=\\"feed_list_content\\" nick-name=\\"(?P<name>.+?)\\">')#通过审查元素列出正规表达式,提取微博昵称
content = re.findall(reg3, res)
print content
print len(content)
结果如图:
解码一下昵称;这里由于得到的格式原因,无法轻快的用python print 得到汉字。所以只能借助解码工具。。希望有大神看到,能给个指导。
最后,我真想再吐槽一下xin浪的API接口,真是太让人失望了。各种没权限。开发的那些也都是亚美蝶的。
看来挖掘机之路不好走,楼主得学好爬虫了。
然后爬数据,抓取发布微博的用户,以及对应微博的转发数和评论列表
二:例子:热门话题:“男生也来大姨妈”
result = urllib2.urlopen('http://s.weibo.com/weibo/%E7%94%B7%E7%94%9F%E4%B9%9F%E6%9D%A5%E5%A4%A7%E5%A7%A8%E5%A6%88&xsort=hot&Refer=hotmore')#打开你得到的url
res = result.read()
reg3 = re.compile(r'<p class=\\"comment_txt\\" node-type=\\"feed_list_content\\" nick-name=\\"(?P<name>.+?)\\">')#通过审查元素列出正规表达式,提取微博昵称
content = re.findall(reg3, res)
print content
print len(content)
#通过审查元素列出正规表达式,提取转发和评论数
<pre class="python" name="code">reg4 = re.compile(r'<ul class=\\"feed_action_info feed_action_row4\\">.+?<li>.+?<\\/li>.+?<li><a .+?><span .+?>.+?<em>(.+?)<\\/em><\\/span><\\/a><\\/li>.+?<li><a .+?><span .+?>.+?<em>(.+?)<\\/em><\\/span><\\/a><\\/li>.+?<li><a .+?><span .+?<\\/span><\\/a><\\/li>')
amount = re.findall(reg4, res)
print amountprint
len(amount)
结果如图:
解码一下昵称;这里由于得到的格式原因,无法轻快的用python print 得到汉字。所以只能借助解码工具。。希望有大神看到,能给个指导。
最后,我真想再吐槽一下xin浪的API接口,真是太让人失望了。各种没权限。开发的那些也都是亚美蝶的。
看来挖掘机之路不好走,楼主得学好爬虫了。
相关文章推荐
- python爬虫入门 实战(四)---爬“榜姐”话题微博及热门评论
- 用python+selenium抓取微博24小时热门话题的前15个并保存到txt中
- 用python+selenium抓取微博24小时热门话题的前15个并保存到txt中
- Python抓取微博评论
- 用python抓取百万网易云热门评论[转载]
- 测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇
- 如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析
- 【利用Python进行数据分析——经验篇2】计算微博转发/评论/点赞h指数的Python代码
- Python3实战之爬虫抓取网易云音乐的热门评论
- Python抓取微博评论(二)
- 测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇
- [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
- Python之HTML的解析(网页抓取一) 分类: HTMLParser 2013-11-08 20:32 5203人阅读 评论(0) 收藏
- 抓取网易云音乐歌曲热门评论生成词云(转)
- python爬虫selenium+firefox抓取京东商品评论
- Python实现抓取CSDN热门文章列表
- 带你写爬虫(python)第二篇----抓取网易云音乐下面的评论(API方式)
- Python 获取新浪微博的热门话题 (API)
- Python实现抓取CSDN热门文章列表
- Python抓取豆瓣《白夜追凶》的评论并且分词