您的位置:首页 > 其它

R语言实现简单的网页数据抓取

2017-02-17 23:39 337 查看
在知乎遇到这样一个问题。

https://www.zhihu.com/question/26385408/answer/147009602

这是要爬取的内容的网页:



R语言的代码的实现方式如下:

#安装XML包
>install.packages("XML")
#载入XML包
> library(XML)
#确定网页地址,通过网页地址分析网页表格
> url<-"http://hz.house.ifeng.com/detail/2014_10_28/50087618_1.shtml"
> tbls<-readHTMLTable(url)
> sapply(tbls,nrow)
NULL NULL
93    8

#读取网页url的第一张表
> pop<-readHTMLTable(url,which = 1)
#存储pop为CSV文档
> write.csv(pop,file="F:/pop.csv")


我们还可以保存为其他格式:

#保存为简单文本:
>write.table(x, file = "*.txt")
#保存为R格式文件:
>save(x, file = "*.Rdata")


内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: