python爬虫2
2015-08-13 19:28
639 查看
**正则表达式的应用举例
使用findall与search从大量文本中匹配感兴趣的内容
使用sub实现换页功能**
正则表达式的应用举例 — 匹配多段内容
灵活使用findall与search
先抓大再抓小
正则表达式的应用举例 — 实现翻页
实验网址:http://www.jikexueyuan.com/course/android/?pageNum=2
核心代码
new_link = re.sub(‘pageNum=\d+’,’pageNum=%d’%i, old_url)
其中text.txt文件内容
使用findall与search从大量文本中匹配感兴趣的内容
使用sub实现换页功能**
正则表达式的应用举例 — 匹配多段内容
灵活使用findall与search
先抓大再抓小
正则表达式的应用举例 — 实现翻页
实验网址:http://www.jikexueyuan.com/course/android/?pageNum=2
核心代码
new_link = re.sub(‘pageNum=\d+’,’pageNum=%d’%i, old_url)
其中text.txt文件内容
[code]<html> <head> <title>极客学院爬虫测试</title> </head> <body> <div class="topic"><a href="http://jikexueyuan.com/welcome.html">欢迎参加《Python定向爬虫入门课程》</a> <div class="list"> <ul> <li><a href="http://jikexueyuan.com/1.html">这是第一条</a></li> <li><a href="http://jikexueyuan.com/2.html">这是第二条</a></li> <li><a href="http://jikexueyuan.com/3.html">这是第三条</a></li> </ul> </div> </div> </body> </html>
[code]#-*-coding:utf8-*- #导入re库文件 import re old_url = 'http://www.jikexueyuan.com/course/android/?pageNum=2' total_page = 20 f = open('text.txt','r') html = f.read() f.close() #爬取标题 # title = re.search('<title>(.*?)</title>',html,re.S).group(1) # print title #爬取链接 # links = re.findall('href="(.*?)"',html,re.S) # for each in links: # print each #抓取部分文字,先大再小 # text_fied = re.findall('<ul>(.*?)</ul>',html,re.S)[0] # the_text = re.findall('">(.*?)</a>',text_fied,re.S) # for every_text in the_text: # print every_text #sub实现翻页 for i in range(2,total_page+1): new_link = re.sub('pageNum=\d+','pageNum=%d'%i,old_url,re.S) print new_link
相关文章推荐
- Python爬虫1
- python爬虫
- python读取properties配置文件
- window环境下安装 pip 工具 【pip为Python的扩展管理工具】
- 【Python】[模块]使用模块,安装第三方模块
- Python 代码性能优化技巧
- python下编译py成pyc和pyo
- Python基础
- Learning Python Day6
- python快速使用(二)python面向过程编程
- python技术博客
- 八皇后问题的python代码
- python学习笔记
- Python中,添加写入数据到已经存在的Excel的xls文件,即打开excel文件,写入新数据
- 【python】Django web应用开发入门
- python运行报错:urllib2.URLError: <urlopen error [Errno 10061] >
- Python3 多线程并发 post 压力测试 并发编程
- A Byte of Python -- Functions
- Python获取本机外网IP
- python模块的打包