您的位置：首页 > 大数据

大数据处理开放数据集

2013-07-22 16:38 211 查看

开放数据集合分享

巧妇难为无米之炊,如果没有数据,大数据Hadoop系统再大也无意义了。

给大家推荐几个数据集合

1.【Stanford Dataset】来源于美国斯坦福大学SNAP实验室，数据子集合涉及社交网络，Ground-Truth社区网络，通信网络，引用网络，协同网络，Web图挖掘等16个大类，138个小类，总大小达45.9G。下载地址：http://t.cn/zjdJhPf

2.【Sogou Labs】搜狗实验室语料库访问地址: http://www.sogou.com/labs/resources.html
TB级别互联网语料库,可以用于全文检索的研究。链接关系库,可以用于pagerank计算。互联网图片库,可以用于图片数据计算。全网新闻数据,分类算法研究.

3.【ClueWeb09 语料库】 Web Graph 400G 的数据。是做PageRank 的好材料了。http://t.cn/zTFM4uQ

4.【netflix 电影访问库】可以用来计算推荐算法

当然这些数据其实都是死数据,如果没有海量用户来访问请求,价值依然无法发挥出来,大数据需要依靠闭环反馈来放大,这大数据也同样意味需要大系统,大用户来支持。不过研究研究也是乐趣,总比没有强吧。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航