python抓取新浪首页的小例子
2014-11-02 21:31
99 查看
参考
廖雪峰的python教程:http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001386832653051fd44e44e4f9e4ed08f3e5a5ab550358d000
代码:
主要功能是模拟浏览器访问网页服务器,并从网页服务器获取返回信息
廖雪峰的python教程:http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001386832653051fd44e44e4f9e4ed08f3e5a5ab550358d000
代码:
#!/usr/bin/python # import module import socket import io # create TCP object s = socket.socket(socket.AF_INET, socket.SOCK_STREAM) # connect sina s.connect(('www.sina.com.cn', 80)) # send request s.send('GET / HTTP/1.1\r\nHost: www.sina.com.cn\r\nConnection: close\r\n\r\n') # receive data buffer = [] while True: # every time receive 1k data d = s.recv(1024) if d: buffer.append(d) else: break data = ''.join(buffer) # close socket header, html = data.split('\r\n\r\n', 1) print header # write receive data to file with open('sina.html', 'wb') as f: f.write(html)
主要功能是模拟浏览器访问网页服务器,并从网页服务器获取返回信息
相关文章推荐
- #小练习 使用正则抓取oschina博客专区首页数据 分类: python 小练习 正则表达式 2013-11-11 17:22 604人阅读 评论(0) 收藏
- python抓取CSDN博客首页的所有博文,对标题分词存入mongodb中
- Python实现抓取CSDN博客首页文章列表
- 运用python抓取博客园首页的所有数据,而且定时持续抓取新公布的内容存入mongodb中
- python3爬虫-爬取新浪新闻首页所有新闻标题
- 使用python开发hadoop streaming程序及hadoop python网页抓取例子
- Python爬虫:新浪新闻详情页的数据抓取(函数版)
- python抓取知乎首页文本信息的简单实现
- python3 抓取必应bing首页图片作为桌面背景
- 基础的python抓取网站图片的例子
- python抓取数据例子
- python抓取网页的一个小例子
- python抓取百度首页的方法
- Python实现抓取CSDN博客首页文章列表
- python例子-PyQuery抓取信息.
- 运用python抓取博客园首页的全部数据,并且定时持续抓取新发布的内容存入mongodb中
- python抓取百度首页的方法
- python抓取网页例子
- Python抓取博客园首页文章列表(带分页)
- Python爬虫:抓取新浪新闻数据