您的位置：首页 > 编程语言 > Python开发

python爬虫实验

2014-02-13 00:00 274 查看

那天在新浪微博上看到北北出的题目，由于最近也在做类似的爬虫研究，所以就有了这个实验。

后来在QQ上和北北说了下，要求是啥都抓，就抓乌云的。。。

然后就开始了。。

第一个版本如下，后续不断改进直到满足需求：

import urllib2; from sgmllib import SGMLParser; class CatCh(SGMLParser): def reset(self): self.url=[] SGMLParser.reset(self) def start_a(self,attrs): href = [v for k, v in attrs if k == 'href'] if href: self.url.extend(href) content = urllib2.urlopen("http://wooyun.org/").read() catch=CatCh() catch.feed(content) for item in catch.url: print item

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

添加评论
分享网址
分享文章
返回顶部