您的位置:首页 > 编程语言 > Python开发

Python中用feedparser解析RSS

2016-02-29 11:25 721 查看
RSS 是用于分发 Web 站点上的内容的摘要的一种简单的 XML
格式。

一、feedparser的安装

下载一个安装包,然后用Windows命令行cd到那个目录下面
输入 python setup.py install 如果不行,那么先双击一次setup.py 再输入

feedparser解析RSS的函数:parse

代码:

d = feedparser.parse('http://feed.cnblogs.com/blog/u/161528/rss')

【里面的网址可以随你更改,不过貌似最后都要/rss】

这时候rss的全部内容就都在这个d里面了

我们可以看一下,此时有了全部RSS内容的d长啥样

首先给出简化的我的博客的rss
1 <?xml version="1.0" encoding="utf-8"?>
2 <feed xmlns="http://www.w3.org/2005/Atom">
3     <title type="text">博客园_mrbean</title>
4     <subtitle type="text">**********************</subtitle>
5     <id>uuid:32303acf-fb5f-4538-a6ba-7a1ac4fd7a58;id=8434</id>
6     <updated>2014-05-14T15:13:36Z</updated>
7     <author>
8         <name>mrbean</name>
9         <uri>http://www.cnblogs.com/MrLJC/</uri>
10     </author>
11     <generator>feed.cnblogs.com</generator>
12     <entry>
13         <id>http://www.cnblogs.com/MrLJC/p/3715783.html</id>
14         <title type="text">用python读写excel(xlrd、xlwt) - mrbean</title>
15         <summary type="text">最近需要从多个excel表里面用各种方式整...</summary>
16         <published>2014-05-08T16:25:00Z</published>
17         <updated>2014-05-08T16:25:00Z</updated>
18         <author>
19             <name>mrbean</name>
20             <uri>http://www.cnblogs.com/MrLJC/</uri>
21         </author>
22         <link rel="alternate" href="http://www.cnblogs.com/MrLJC/p/3715783.html" />
23         <link rel="alternate" type="text/html" href="http://www.cnblogs.com/MrLJC/p/3715783.html" />
24         <content type="html">最近需要从多个excel表里面用各种方式整理一些数据,虽然说原来用过java做这类事情,但是由于最近在学python,所以当然就决定用python尝试一下了。发现python果然简洁很多。这里简单记录一下。(由于是用到什么学什么,所以不算太深入,高手勿喷,欢迎指导)一、读excel表读excel要用...<img src="http://counter.cnblogs.com/blog/rss/3715783" width="1" height="1" alt=""/><br/><p>本文链接:<a href="http://www.cnblogs.com/MrLJC/p/3715783.html" target="_blank">用python读写excel(xlrd、xlwt)</a>,转载请注明。</p></content>
25     </entry>
26 </feed>


这个里面的值就是我们得到的内容大部分都是见名知意的单词,当然这些很多都是博客园的生成器自己家的。简单说几个不太明白的

1、generator:这个是生成这个订阅源的工具,也就是博客园自己提供的生成器

2、entry:每篇博文的块,所有的关于你某篇博客的内容都在这(有若干个块,为了不太长我只保留了一个)

3、content:这个里面貌似是可以加html的吗的,rss阅读器展示的就是这的内容
【因此,如果我做数据挖掘,我不关心博客的更新时间,它的作者,网址,我只关心它的内容,有没有我想要的单词。我只需要关心entry这一个】

在代码中,如果没有找到summary,那么可能summary这个项名字叫做“description”,比如http://kotaku.com/rss
这个网址里entry里就没有summary,只有description。不过它们的作用都是一样的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: