您的位置：首页 > 编程语言 > Python开发

Python中用feedparser解析RSS

2016-02-29 11:25 721 查看

RSS 是用于分发 Web 站点上的内容的摘要的一种简单的 XML
格式。

一、feedparser的安装

下载一个安装包，然后用Windows命令行cd到那个目录下面
输入 python setup.py install 如果不行，那么先双击一次setup.py 再输入

feedparser解析RSS的函数：parse

代码：

d = feedparser.parse('http://feed.cnblogs.com/blog/u/161528/rss')

【里面的网址可以随你更改，不过貌似最后都要/rss】

这时候rss的全部内容就都在这个d里面了

我们可以看一下，此时有了全部RSS内容的d长啥样

首先给出简化的我的博客的rss

1 <?xml version="1.0" encoding="utf-8"?>
2 <feed xmlns="http://www.w3.org/2005/Atom">
3     <title type="text">博客园_mrbean</title>
4     <subtitle type="text">**********************</subtitle>
5     <id>uuid:32303acf-fb5f-4538-a6ba-7a1ac4fd7a58;id=8434</id>
6     <updated>2014-05-14T15:13:36Z</updated>
7     <author>
8         <name>mrbean</name>
9         <uri>http://www.cnblogs.com/MrLJC/</uri>
10     </author>
11     <generator>feed.cnblogs.com</generator>
12     <entry>
13         <id>http://www.cnblogs.com/MrLJC/p/3715783.html</id>
14         <title type="text">用python读写excel（xlrd、xlwt） - mrbean</title>
15         <summary type="text">最近需要从多个excel表里面用各种方式整...</summary>
16         <published>2014-05-08T16:25:00Z</published>
17         <updated>2014-05-08T16:25:00Z</updated>
18         <author>
19             <name>mrbean</name>
20             <uri>http://www.cnblogs.com/MrLJC/</uri>
21         </author>
22         <link rel="alternate" href="http://www.cnblogs.com/MrLJC/p/3715783.html" />
23         <link rel="alternate" type="text/html" href="http://www.cnblogs.com/MrLJC/p/3715783.html" />
24         <content type="html">最近需要从多个excel表里面用各种方式整理一些数据，虽然说原来用过java做这类事情，但是由于最近在学python，所以当然就决定用python尝试一下了。发现python果然简洁很多。这里简单记录一下。（由于是用到什么学什么，所以不算太深入，高手勿喷，欢迎指导）一、读excel表读excel要用...<img src="http://counter.cnblogs.com/blog/rss/3715783" width="1" height="1" alt=""/><br/><p>本文链接：<a href="http://www.cnblogs.com/MrLJC/p/3715783.html" target="_blank">用python读写excel（xlrd、xlwt）</a>，转载请注明。</p></content>
25     </entry>
26 </feed>

这个里面的值就是我们得到的内容大部分都是见名知意的单词，当然这些很多都是博客园的生成器自己家的。简单说几个不太明白的

1、generator：这个是生成这个订阅源的工具，也就是博客园自己提供的生成器

2、entry：每篇博文的块，所有的关于你某篇博客的内容都在这（有若干个块，为了不太长我只保留了一个）

3、content：这个里面貌似是可以加html的吗的，rss阅读器展示的就是这的内容
【因此，如果我做数据挖掘，我不关心博客的更新时间，它的作者，网址，我只关心它的内容，有没有我想要的单词。我只需要关心entry这一个】

在代码中，如果没有找到summary，那么可能summary这个项名字叫做“description”，比如http://kotaku.com/rss
这个网址里entry里就没有summary，只有description。不过它们的作用都是一样的。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航