Python中用feedparser解析RSS
2016-02-29 11:25
721 查看
RSS 是用于分发 Web 站点上的内容的摘要的一种简单的 XML
格式。
一、feedparser的安装
下载一个安装包,然后用Windows命令行cd到那个目录下面
输入 python setup.py install 如果不行,那么先双击一次setup.py 再输入
feedparser解析RSS的函数:parse
代码:
【里面的网址可以随你更改,不过貌似最后都要/rss】
这时候rss的全部内容就都在这个d里面了
我们可以看一下,此时有了全部RSS内容的d长啥样
首先给出简化的我的博客的rss
这个里面的值就是我们得到的内容大部分都是见名知意的单词,当然这些很多都是博客园的生成器自己家的。简单说几个不太明白的
1、generator:这个是生成这个订阅源的工具,也就是博客园自己提供的生成器
2、entry:每篇博文的块,所有的关于你某篇博客的内容都在这(有若干个块,为了不太长我只保留了一个)
3、content:这个里面貌似是可以加html的吗的,rss阅读器展示的就是这的内容
【因此,如果我做数据挖掘,我不关心博客的更新时间,它的作者,网址,我只关心它的内容,有没有我想要的单词。我只需要关心entry这一个】
在代码中,如果没有找到summary,那么可能summary这个项名字叫做“description”,比如http://kotaku.com/rss
这个网址里entry里就没有summary,只有description。不过它们的作用都是一样的。
格式。
一、feedparser的安装
下载一个安装包,然后用Windows命令行cd到那个目录下面
输入 python setup.py install 如果不行,那么先双击一次setup.py 再输入
feedparser解析RSS的函数:parse
代码:
d = feedparser.parse('http://feed.cnblogs.com/blog/u/161528/rss')
【里面的网址可以随你更改,不过貌似最后都要/rss】
这时候rss的全部内容就都在这个d里面了
我们可以看一下,此时有了全部RSS内容的d长啥样
首先给出简化的我的博客的rss
1 <?xml version="1.0" encoding="utf-8"?> 2 <feed xmlns="http://www.w3.org/2005/Atom"> 3 <title type="text">博客园_mrbean</title> 4 <subtitle type="text">**********************</subtitle> 5 <id>uuid:32303acf-fb5f-4538-a6ba-7a1ac4fd7a58;id=8434</id> 6 <updated>2014-05-14T15:13:36Z</updated> 7 <author> 8 <name>mrbean</name> 9 <uri>http://www.cnblogs.com/MrLJC/</uri> 10 </author> 11 <generator>feed.cnblogs.com</generator> 12 <entry> 13 <id>http://www.cnblogs.com/MrLJC/p/3715783.html</id> 14 <title type="text">用python读写excel(xlrd、xlwt) - mrbean</title> 15 <summary type="text">最近需要从多个excel表里面用各种方式整...</summary> 16 <published>2014-05-08T16:25:00Z</published> 17 <updated>2014-05-08T16:25:00Z</updated> 18 <author> 19 <name>mrbean</name> 20 <uri>http://www.cnblogs.com/MrLJC/</uri> 21 </author> 22 <link rel="alternate" href="http://www.cnblogs.com/MrLJC/p/3715783.html" /> 23 <link rel="alternate" type="text/html" href="http://www.cnblogs.com/MrLJC/p/3715783.html" /> 24 <content type="html">最近需要从多个excel表里面用各种方式整理一些数据,虽然说原来用过java做这类事情,但是由于最近在学python,所以当然就决定用python尝试一下了。发现python果然简洁很多。这里简单记录一下。(由于是用到什么学什么,所以不算太深入,高手勿喷,欢迎指导)一、读excel表读excel要用...<img src="http://counter.cnblogs.com/blog/rss/3715783" width="1" height="1" alt=""/><br/><p>本文链接:<a href="http://www.cnblogs.com/MrLJC/p/3715783.html" target="_blank">用python读写excel(xlrd、xlwt)</a>,转载请注明。</p></content> 25 </entry> 26 </feed>
这个里面的值就是我们得到的内容大部分都是见名知意的单词,当然这些很多都是博客园的生成器自己家的。简单说几个不太明白的
1、generator:这个是生成这个订阅源的工具,也就是博客园自己提供的生成器
2、entry:每篇博文的块,所有的关于你某篇博客的内容都在这(有若干个块,为了不太长我只保留了一个)
3、content:这个里面貌似是可以加html的吗的,rss阅读器展示的就是这的内容
【因此,如果我做数据挖掘,我不关心博客的更新时间,它的作者,网址,我只关心它的内容,有没有我想要的单词。我只需要关心entry这一个】
在代码中,如果没有找到summary,那么可能summary这个项名字叫做“description”,比如http://kotaku.com/rss
这个网址里entry里就没有summary,只有description。不过它们的作用都是一样的。
相关文章推荐
- Python 的生成二维码生成库 -- qrcode
- python爬虫抓网页的总结
- Python爬虫(一):环境配置
- python入门经典(二)
- Python2.x与Python3.x的区别
- Learning Python(10)--input与raw_input
- python学习笔记六之面向对象相关下(基础篇)
- python应用之文件属性浏览
- 笨方法学python学习笔记
- 《利用python进行数据分析》学习笔记(一)
- Python爬虫开发(二):整站爬虫与Web挖掘
- python进阶之路之文件处理
- Python爬虫开发(一):零基础入门
- leetcode第22题——**Generate Parentheses
- python 默认参数问题的陷阱
- python 冒泡排序 选择排序 插入排序的对比分析
- python 用生成器生成斐波那契数列
- datetime使用笔记
- 在python中怎么生成html格式的邮件并发送
- 闭包学习