大数据处理开放数据集
2013-07-22 16:38
211 查看
开放数据集合分享
巧妇难为无米之炊,如果没有数据,大数据Hadoop系统再大也无意义了。给大家推荐几个数据集合
1.【Stanford Dataset】来源于美国斯坦福大学SNAP实验室,数据子集合涉及社交网络,Ground-Truth社区网络,通信网络,引用网络,协同网络,Web图挖掘等16个大类,138个小类,总大小达45.9G。下载地址:http://t.cn/zjdJhPf
2.【Sogou Labs】搜狗实验室语料库 访问地址: http://www.sogou.com/labs/resources.html
TB级别互联网语料库,可以用于全文检索的研究。链接关系库,可以用于pagerank计算。互联网图片库,可以用于图片数据计算。全网新闻数据,分类算法研究.
3.【ClueWeb09 语料库】 Web Graph 400G 的数据。是做PageRank 的好材料了。http://t.cn/zTFM4uQ
4.【netflix 电影访问库】 可以用来计算推荐算法
当然这些数据其实都是死数据,如果没有海量用户来访问请求,价值依然无法发挥出来,大数据需要依靠闭环反馈来放大,这大数据也同样意味需要大系统,大用户来支持。不过研究研究也是乐趣,总比没有强吧。
相关文章推荐
- .net多语言和数据集内多数据表的处理(1)
- 基因数据处理32之Avocado运行记录(人造数据集)
- .net多语言和数据集内多数据表的处理(2)
- 强类型的数据集,在处理以直接附加方式的SQLServer的MDF文件时无法更新数据-原因分析
- 数据挖掘-K-近邻分类器-Iris数据集分析-PCA降维处理后显示分类情况(三)
- 开放实时数据处理平台 Storm
- 用Tensorflow处理自己的数据:制作自己的TFRecords数据集
- .net多语言和数据集内多数据表的处理(2)
- 数据科学家必用的25个深度学习的开放数据集!
- 开放实时数据处理平台 Twitter Storm
- Football数据集可视化处理——gephi可视化处理数据
- 数据集处理成可视树,数据网格自动适应宽度
- Hive数据分析——Spark是一种基于rdd(弹性数据集)的内存分布式并行处理框架,比于Hadoop将大量的中间结果写入HDFS,Spark避免了中间结果的持久化
- [置顶] 用Keras处理自己的数据:制作自己的Keras数据集
- 数据集处理成可视树,数据网格自动适应宽度
- 开放实时数据处理平台 Twitter Storm(转)
- 猫狗大战数据集,演示如何通过Tf处理数据
- 【Tensorflow】怎样为你的网络预加工和打包训练数据?(二):小数据集的处理方案
- 在listUI填充数据前对数据集进行处理
- .net多语言和数据集内多数据表的处理(3)