python 示列:抓取网页所有<a>连接
2017-03-28 18:15
239 查看
如果我们编写一个搜索引擎,第一步是用爬虫把目标网站的页面抓回来,第二步是分析网页内容,看到底是新闻、图片或是视频。
接下来的示例展示分为2个步骤
1.获取目标网页的内容
2.屏幕输出网页中所有的<a>标签的连接
示列:myparser.py
1 #!/usr/bin/env Python
2 #-*- encoding:utf-8 -*-
3
4 import urllib
5
6 import HTMLParser
7
8 class myparser(HTMLParser.HTMLParser):
9 def __init__(self):
10 HTMLParser.HTMLParser.__init__(self)
11
12 def handle_starttag(self, tag, attrs):
13 if tag == 'a':
14 for name, value in attrs:
15 if name == 'href':
16 print value
17
18 if __name__ == '__main__':
19 #a = '<html><head></head><body><div class="test"><a href="http://test.test.cn"></div></body></html>';
20
21 url = 'http://www.meishij.NET/jiankang/yangsheng/';
22
23 page = urllib.urlopen(url)
24 print page
25 assert page
26
27 data = page.read() #1.
28
29 my = myparser()
30 my.feed(data) #2.
接下来的示例展示分为2个步骤
1.获取目标网页的内容
2.屏幕输出网页中所有的<a>标签的连接
示列:myparser.py
1 #!/usr/bin/env Python
2 #-*- encoding:utf-8 -*-
3
4 import urllib
5
6 import HTMLParser
7
8 class myparser(HTMLParser.HTMLParser):
9 def __init__(self):
10 HTMLParser.HTMLParser.__init__(self)
11
12 def handle_starttag(self, tag, attrs):
13 if tag == 'a':
14 for name, value in attrs:
15 if name == 'href':
16 print value
17
18 if __name__ == '__main__':
19 #a = '<html><head></head><body><div class="test"><a href="http://test.test.cn"></div></body></html>';
20
21 url = 'http://www.meishij.NET/jiankang/yangsheng/';
22
23 page = urllib.urlopen(url)
24 print page
25 assert page
26
27 data = page.read() #1.
28
29 my = myparser()
30 my.feed(data) #2.
相关文章推荐
- python 示列:抓取网页所有<a>连接
- python 爬虫学习<将某一页的所有图片下载下来>
- Python 正则表达式替换所有的<b>为<strong>
- Python抓取单个网页中所有的PDF文档
- jQuery练习1--给网页中所有的 <p> 元素添加 onclick 事件
- Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
- 干货来了,PHP截取网页源码内所有&amp;lt;a&amp;gt;标签,并形成数组
- python 数据库操作查出id>?and id<?的所有数据
- input file控件限制上传文件类型 网页上添加一个input file HTML控件: 1 <input id="File1" type="file" /> 默认是这样的,所有文件类
- Python之BeautifulSoup学习之一 粗略抓取网页图片连接地址
- jQuery练习1--给网页中所有的 &lt;p&gt; 元素添加 onclick 事件
- Python爬虫---------------<妹子图>图片抓取(1)
- C#抓取网页上的所有连接
- Python抓取单个网页中所有的PDF文档
- beautifulsoup提取所有<a>标签内容 Python
- IronPython and LINQ to Objects (IV): 实现IEnumerable<Object>
- <<DEITEL - Python How to Program 2002>>Special attributes of an object of a class.0.0.0.3
- C# 抓取网页里面的所有链接!
- 使用python写的如何自动提交和抓取网页
- <转载>在Eclipse中用JDBC连接Sql Server 2005总结