您的位置:首页 > 产品设计 > UI/UE

requests实现简单文本爬虫

2017-01-24 17:51 761 查看
import requests
import re

page =1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'#请求的头信息,谷歌打开页面按F12打开谷歌监听工具,找到network项,F5刷新页面,点击第一个数据包,即可查看headers相关信息。
headers = { 'User-Agent' : user_agent }

response=requests.get(url,headers=headers)#创建一个实例
content = response.text#访问该实例的text属性,返回html文本
content =re.sub('<br/>','\n' ,content)#用'\n'替换<br/>#将HTML文本中的空格标记用断行符替换
pattern = re.compile('content">.*?<span>(.*?)</span>.*?</div>',re.S)#正则式匹配HTML文本中的段子.
outputs = re.findall(pattern,content)#正则式匹配
for i in outputs:
print i +"\n\n"
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息