Python正则抓取新闻标题和链接的方法示例
2017-04-24 08:56
621 查看
本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:
#-*-coding:utf-8-*- import re from urllib import urlretrieve from urllib import urlopen #获取网页信息 doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站 #抓取新闻标题和链接 def extract_title(info): pat = '<h3><a target=\"_blank\"(.*?)</a></h3>' title = re.findall(pat, info) titles='\n'.join(title) #print titles #修改指定字符串 titles1=titles.replace('class="title"','title') titles2=titles1.replace('>',':') titles3=titles2.replace('href','url:') titles4=titles3.replace('="/','"http://www.itongji.cn/') #写入文件 save=open('xinwen.txt','w') save.write(titles4) save.close() titles = extract_title(doc)
PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:
JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript
正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg
更多关于Python相关内容可查看本站专题:《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python Socket编程技巧总结》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。
您可能感兴趣的文章:
相关文章推荐
- Python简单抓取新浪某网页新闻链接及标题
- Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
- Python抓取新闻标题和链接
- Python使用正则表达式抓取网页图片的方法示例
- Python使用中文正则表达式匹配指定中文字符串的方法示例
- Python抓取网页&批量下载文件方法初探(正则表达式+BeautifulSoup) (转)
- C#.Net基于正则表达式抓取百度百家文章列表的方法示例
- Python开发中爬虫使用代理proxy抓取网页的方法示例
- Python实现抓取网页生成Excel文件的方法示例
- Python抓取网页&批量下载文件方法初探(正则表达式+BeautifulSoup)
- Jsoup实现新闻网页的爬取,标题,正文,图片,新闻时间,网页链接的解析示例
- python 3利用BeautifulSoup抓取div标签的方法示例
- Python数据抓取(3) —抓取标题、时间及链接
- python3 bs4 requests 腾讯新闻 标题 链接获取 小试牛刀
- 关于python网络爬虫——摘取新闻标题及链接
- Python爬虫实现网页信息抓取功能示例【URL与正则模块】
- [Python] 根据博客园用户名抓取其所有文章的标题及其链接
- C#基于正则表达式抓取a标签链接和innerhtml的方法