您的位置：首页 > 编程语言 > Python开发

python 示列：抓取网页所有<a>连接

2017-03-28 18:15 239 查看

如果我们编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓回来，第二步是分析网页内容，看到底是新闻、图片或是视频。

接下来的示例展示分为2个步骤
1.获取目标网页的内容
2.屏幕输出网页中所有的<a>标签的连接

示列：myparser.py
1 #!/usr/bin/env Python

2 #-*- encoding:utf-8 -*-

3

4 import urllib

5

6 import HTMLParser

7

8 class myparser(HTMLParser.HTMLParser):

9 def __init__(self):

10 HTMLParser.HTMLParser.__init__(self)

11

12 def handle_starttag(self, tag, attrs):

13 if tag == 'a':

14 for name, value in attrs:

15 if name == 'href':

16 print value

17

18 if __name__ == '__main__':

19 #a = '<html><head></head><body><div class="test"><a href="http://test.test.cn"></div></body></html>';

20

21 url = 'http://www.meishij.NET/jiankang/yangsheng/';

22

23 page = urllib.urlopen(url)

24 print page

25 assert page

26

27 data = page.read() #1.

28

29 my = myparser()

30 my.feed(data) #2.

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航