Python初体验:三句话写个刷微博、博客、空间等的小爬虫
2014-02-27 23:08
549 查看
目标:用python写一个自动访问网页的东西。
Python果然是够强大,参考网上一个智普啥的python视频培训,自己又完善了下。要让python打开浏览器,并访问指定网址,很简单只需下面两句话:
import webbrowser as web
web.open_new_tab('www.baidu.com')
如果你想访问一定次数或者一直访问,那就加个while True。下面给出完整程序,然后再解释:
注意事项: 1、开头是设置编码,支持python打印中文;
2、random.randint(10,15)是生成一个10到15之间的随机数,在这里可以控制访问次数。然后里面又嵌套了一个while,所以最终的访问次数是M*N次;
3、每N次,这里N=10,打开10个浏览器页面后,就要通过taskkill /F /IM baidubrowser.exe命令,杀死浏览器进程。如果是其他浏览器,可以再任务管理器里查看浏览器的进程。通过os.system让windows来执行。如果在linux下要换成kill命令。为啥要每10次就关下浏览器呢?因为如果打开太多,占用资源太多,电脑会挂掉。所以每隔10次关下浏览器。每次打开后,让它休眠一定时间,如果中间不留时间,浏览器还没请求到数据就关了。
4、最后如果刷完了,想要自动关机的话通过shutdown -s命令来实现,方便python半夜执行完任务后自动将浏览器关闭。
来个截图吧:
总结:严格意义上,这个不能算是python的爬虫,仅仅是通过一个命令自动打开浏览器,真正解析网址的内容还是浏览器,并非是python写的代码。不过从这个例子中足见python在网络方面的强大。下次贡献一个真正的爬虫。
声明:本例旨在演示python的强大和实用,切勿用于不良目的!!!(话说过来了,现在很多网站博客都有反爬虫.)
Python果然是够强大,参考网上一个智普啥的python视频培训,自己又完善了下。要让python打开浏览器,并访问指定网址,很简单只需下面两句话:
import webbrowser as web
web.open_new_tab('www.baidu.com')
如果你想访问一定次数或者一直访问,那就加个while True。下面给出完整程序,然后再解释:
#coding=utf-8 import webbrowser as web import time import os import random M = random.randint(10,15) print '随机数 = ', M N = 10 j = 0 while j < M: i = 0 while i < N: web.open_new_tab('http://blog.sina.com.cn/s/blog_723395a70101josb.html') i = i + 1 time.sleep(1.5) else: os.system('taskkill /F /IM baidubrowser.exe') j = j + 1 else: print '本次python总共打开了', M * N, '次' o='c:\\windows\\system32\\shutdown -s ' os.system(o)
注意事项: 1、开头是设置编码,支持python打印中文;
2、random.randint(10,15)是生成一个10到15之间的随机数,在这里可以控制访问次数。然后里面又嵌套了一个while,所以最终的访问次数是M*N次;
3、每N次,这里N=10,打开10个浏览器页面后,就要通过taskkill /F /IM baidubrowser.exe命令,杀死浏览器进程。如果是其他浏览器,可以再任务管理器里查看浏览器的进程。通过os.system让windows来执行。如果在linux下要换成kill命令。为啥要每10次就关下浏览器呢?因为如果打开太多,占用资源太多,电脑会挂掉。所以每隔10次关下浏览器。每次打开后,让它休眠一定时间,如果中间不留时间,浏览器还没请求到数据就关了。
4、最后如果刷完了,想要自动关机的话通过shutdown -s命令来实现,方便python半夜执行完任务后自动将浏览器关闭。
来个截图吧:
总结:严格意义上,这个不能算是python的爬虫,仅仅是通过一个命令自动打开浏览器,真正解析网址的内容还是浏览器,并非是python写的代码。不过从这个例子中足见python在网络方面的强大。下次贡献一个真正的爬虫。
声明:本例旨在演示python的强大和实用,切勿用于不良目的!!!(话说过来了,现在很多网站博客都有反爬虫.)
相关文章推荐
- python爬虫之csdn刷博客访问量
- Python+Selenium实现微博自动化爬虫
- python 爬虫 爬取序列博客文章列表
- python爬虫练习4:刷博客浏览量
- Python爬虫小实践:爬取任意CSDN博客所有文章的文字内容(或可改写为保存其他的元素),间接增加博客访问量
- python爬虫进阶(三):微博的抓取
- Python3 大型网络爬虫实战 002 --- scrapy 爬虫项目的创建及爬虫的创建 --- 实例:爬取百度标题和CSDN博客
- python_爬虫模拟登录微博
- python利用新浪API实现数据的抓取\python微博数据爬虫
- python爬虫实战:刷某博客站点的访问量(转)
- Python爬虫自动获取CSDN博客收藏文章
- Python爬虫抓取csdn博客
- selenium+python+phantomjs爬虫博客排行榜
- 微博爬虫“免登录”技巧详解及 Java 实现(业余草的博客)
- [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
- 支持Google免费空间(GAE)的Python博客
- 【python】爬虫1——下载博客文章
- Python 爬虫爬取指定博客的所有文章
- 开发记录_自学Python写爬虫程序爬取csdn个人博客信息
- python实现自动发送微博,当自己写博客时同步上去。