requests实现简单文本爬虫
2017-01-24 17:51
761 查看
import requests import re page =1 url = 'http://www.qiushibaike.com/hot/page/' + str(page) user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'#请求的头信息,谷歌打开页面按F12打开谷歌监听工具,找到network项,F5刷新页面,点击第一个数据包,即可查看headers相关信息。 headers = { 'User-Agent' : user_agent } response=requests.get(url,headers=headers)#创建一个实例 content = response.text#访问该实例的text属性,返回html文本 content =re.sub('<br/>','\n' ,content)#用'\n'替换<br/>#将HTML文本中的空格标记用断行符替换 pattern = re.compile('content">.*?<span>(.*?)</span>.*?</div>',re.S)#正则式匹配HTML文本中的段子. outputs = re.findall(pattern,content)#正则式匹配 for i in outputs: print i +"\n\n"
相关文章推荐
- 简单的实现爬虫爬取网页文本和图片
- delphi与flash通信交互的文本简单实现
- vs2005简单的使用控件,实现网站常用的任意文本超链接
- 基于人人网的简单爬虫(二)——具体实现
- PHP实现最简单爬虫原型
- Hadoop初体验——搭建hadoop简单实现文本数据全局排序
- J2ME简单灵活实现手机中自动换行显示文本
- 利用AJAX实现简单的用户登录程序(处理服务端返回的文本数据)
- 文本掩码的一种简单实现
- 一个简单的爬虫技术实现
- LCS算法实现简单中文文本相似度分析
- 用MATLAB的GUI实现文本的简单加密原理
- CSS+Table图文混排中实现文本自适应图片宽度(超简单+跨所有浏览器)
- CSS+Table图文混排中实现文本自适应图片宽度(超简单+跨所有浏览器)
- 用Windows API实现一个简单的文本输入框
- 使用C# 实现简单的爬虫
- 关于文本编辑的简单实现
- 搜索文本内容——Java代码的简单实现(修改版)
- C++实践笔记(二)----实现一个简单的文本查询程序
- Levenshtein Distance算法实现简单文本相似度分析