您的位置：首页 > 产品设计 > UI/UE

requests实现简单文本爬虫

2017-01-24 17:51 761 查看

import requests
import re

page =1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'#请求的头信息，谷歌打开页面按F12打开谷歌监听工具，找到network项，F5刷新页面，点击第一个数据包，即可查看headers相关信息。
headers = { 'User-Agent' : user_agent }

response=requests.get(url,headers=headers)#创建一个实例
content = response.text#访问该实例的text属性，返回html文本
content =re.sub('<br/>','\n' ,content)#用'\n'替换<br/>#将HTML文本中的空格标记用断行符替换
pattern = re.compile('content">.*?<span>(.*?)</span>.*?</div>',re.S)#正则式匹配HTML文本中的段子.
outputs = re.findall(pattern,content)#正则式匹配
for i in outputs:
print i +"\n\n"

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Python requests 文本爬虫

相关文章推荐

新的分享

章节导航