您的位置:首页 > 编程语言 > Python开发

python 示列:抓取网页所有<a>连接

2017-03-28 18:15 239 查看
如果我们编写一个搜索引擎,第一步是用爬虫把目标网站的页面抓回来,第二步是分析网页内容,看到底是新闻、图片或是视频。

接下来的示例展示分为2个步骤
1.获取目标网页的内容
2.屏幕输出网页中所有的<a>标签的连接

示列:myparser.py
  1 #!/usr/bin/env Python

  2 #-*- encoding:utf-8 -*-

  3 

  4 import urllib

  5 

  6 import HTMLParser

  7 

  8 class myparser(HTMLParser.HTMLParser):

  9     def __init__(self):

 10         HTMLParser.HTMLParser.__init__(self)

 11 

 12     def handle_starttag(self, tag, attrs):

 13         if tag == 'a':

 14             for name, value in attrs:

 15                 if name == 'href':

 16                     print value

 17 

 18 if __name__ == '__main__':

 19     #a = '<html><head></head><body><div class="test"><a href="http://test.test.cn"></div></body></html>';

 20 

 21     url = 'http://www.meishij.NET/jiankang/yangsheng/';

 22 

 23     page = urllib.urlopen(url)

 24     print page

 25     assert page

 26 

 27     data = page.read() #1.

 28 

 29     my = myparser()

 30     my.feed(data) #2.
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: