您的位置：首页 > 大数据

史上最全的“大数据”学习资源（下）

2016-07-16 13:08 1041 查看

原文地址：https://yq.aliyun.com/articles/37396

摘要：当今“大数据”一词的重点其实已经不仅在于数据规模的定义，它更代表着信息技术发展进入了一个新的时代，代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难，代表着大数据处理所需的新的技术和方法，也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。

推荐：史上最全的“大数据”学习资源（上）

当前，整个互联网正在从IT时代向DT时代演进，大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义，它更代表着信息技术发展进入了一个新的时代，代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难，代表着大数据处理所需的新的技术和方法，也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。

为了帮助大家更好深入了解大数据，云栖社区组织翻译了GitHub Awesome Big Data资源，供大家参考。本资源类型主要包括：大数据框架、论文等实用资源集合。

服务编程

  Akka Toolkit：JVM中分布性、容错事件驱动应用程序的运行时间；

  Apache
Avro：数据序列化系统；

  Apache
Curator：Apache ZooKeeper的Java库；

  Apache
Karaf：在任何OSGi框架之上运行的OSGi运行时间；

  Apache
Thrift：构建二进制协议的框架；

  Apache
Zookeeper：流程管理集中式服务；

  Google
Chubby：一种松耦合分布式系统锁服务；

  Linkedin
Norbert：集群管理器；

  OpenMPI：消息传递框架；

  Serf：服务发现和协调的分散化解决方案；

  Spotify
Luigi：一种构建批处理作业的复杂管道的Python包，它能够处理依赖性解析、工作流管理、可视化、故障处理、命令行一体化等等问题；

  Spring
XD：数据摄取、实时分析、批量处理和数据导出的分布式、可扩展系统；

  Twitter
Elephant Bird：LZO压缩数据的工作库；

  Twitter
Finagle：JVM的异步网络堆栈。

调度

  Apache
Aurora：在Apache Mesos之上运行的服务调度程序；

  Apache
Falcon：数据管理框架；

  Apache
Oozie：工作流作业调度程序；

  Chronos：分布式容错调度；

  Linkedin
Azkaban：批处理工作流作业调度；

  Schedoscope：Hadoop作业敏捷调度的Scala
DSL；

  Sparrow：调度平台；

  Airflow：一个以编程方式编写、调度和监控工作流的平台。

机器学习

  Apache
Mahout：Hadoop的机器学习库；

  brain：JavaScript中的神经网络；

  Cloudera
Oryx：实时大规模机器学习；

  Concurrent
Pattern：Cascading的机器学习库；

  convnetjs：Javascript中的机器学习，在浏览器中训练卷积神经网络（或普通网络）；

  Decider：Ruby中灵活、可扩展的机器学习；

  ENCOG：支持多种先进算法的机器学习框架，同时支持类的标准化和处理数据；

  etcML：机器学习文本分类；

  Etsy
Conjecture：Scalding中可扩展的机器学习；

  Google
Sibyl：Google中的大规模机器学习系统；

  GraphLab
Create：Python的机器学习平台，包括ML工具包、数据工程和部署工具的广泛集合；

  H2O：Hadoop统计性的机器学习和数学运行时间；

  MLbase：用于BDAS堆栈的分布式机器学习库；

  MLPNeuralNet：针对iOS和Mac
OS X的快速多层感知神经网络库；

  MonkeyLearn：使文本挖掘更为容易，从文本中提取分类数据；

  nupic：智能计算的Numenta平台，它是一个启发大脑的机器智力平台，基于皮质学习算法的精准的生物神经网络；

  PredictionIO：建于Hadoop、Mahout和Cascading上的机器学习服务器；

  SAMOA：分布式流媒体机器学习框架；

  scikit-learn：scikit-learn为Python中的机器学习；

  Spark
MLlib：Spark中一些常用的机器学习（ML）功能的实现；

  Vowpal
Wabbit：微软和雅虎发起的学习系统；

  WEKA：机器学习软件套件；

  BidMach：CPU和加速GPU的机器学习库。

基准测试

  Apache
Hadoop Benchmarking：测试Hadoop性能的微基准；

  Berkeley
SWIM Benchmark：现实大数据工作负载基准测试；

  Intel
HiBench：Hadoop基准测试套件；

  PUMA
Benchmarking：MapReduce应用的基准测试套件；

  Yahoo
Gridmix3：雅虎工程师团队的Hadoop集群基准测试。

安全性

  Apache
Knox Gateway：Hadoop集群安全访问的单点；

  Apache
Sentry：存储在Hadoop的数据安全模块。

系统部署

  Apache
Ambari：Hadoop管理的运作框架；

  Apache
Bigtop：Hadoop生态系统的部署框架；

  Apache
Helix：集群管理框架；

  Apache
Mesos：集群管理器；

  Apache
Slider：一种YARN应用，用来部署YARN中现有的分布式应用程序；

  Apache
Whirr：运行云服务的库集；

  Apache
YARN：集群管理器；

  Brooklyn：用于简化应用程序部署和管理的库；

  Buildoop：基于Groovy语言，和Apache
BigTop类似；

  Cloudera HUE：和Hadoop进行交互的Web应用程序；

  Facebook
Prism：多数据中心复制系统；

  Google
Borg：作业调度和监控系统；

  Google
Omega：作业调度和监控系统；

  Hortonworks
HOYA：可在YARN上部署HBase集群的应用；

  Marathon：用于长期运行服务的Mesos框架。

应用程序

  Adobe
spindle：使用Scala、Spark和Parquet处理的下一代web分析；

  Apache
Kiji：基于HBase，实时采集和分析数据的框架；

  Apache
Nutch：开源网络爬虫；

  Apache
OODT：用于NASA科学档案中数据的捕获、处理和共享；

  Apache
Tika：内容分析工具包；

  Argus：时间序列监测和报警平台；

  Countly：基于Node.js和MongoDB，开源的手机和网络分析平台；

  Domino：运行、规划、共享和部署模型——没有任何基础设施；

  Eclipse
BIRT：基于Eclipse的报告系统；

  Eventhub：开源的事件分析平台；

  Hermes：建于Kafka上的异步消息代理；

  HIPI
Library：在Hadoop's MapReduce上执行图像处理任务的API；

  Hunk：Hadoop的Splunk分析；

  Imhotep：大规模分析平台；

  MADlib：RDBMS的用于数据分析的数据处理库；

  Kylin：来自eBay的开源分布式分析工具；

  PivotalR：Pivotal
HD / HAWQ和PostgreSQL中的R；

  Qubole：为自动缩放Hadoop集群，内置的数据连接器；

  Sense：用于数据科学和大数据分析的云平台；

  SnappyData：用于实时运营分析的分布式内存数据存储，提供建立在Spark单一集成集群中的数据流分析、OLTP（联机事务处理）和OLAP（联机分析处理）；

  Snowplow：企业级网络和事件分析，由Hadoop、Kinesis、Redshift
和Postgres提供技术支持；

  SparkR：Spark的R前端；

  Splunk：用于机器生成的数据的分析；

  Sumo
Logic：基于云的分析仪，用于分析机器生成的数据；

  Talend：用于YARN、Hadoop、HBASE、Hive、HCatalog和Pig的统一开源环境；

  Warp：利用大数据（OS
X app）的实例查询工具。

搜索引擎与框架

  Apache
Lucene：搜索引擎库；

  Apache
Solr：用于Apache Lucene的搜索平台；

  ElasticSearch：基于Apache
Lucene的搜索和分析引擎；

  Enigma.io：为免费增值的健壮性web应用，用于探索、筛选、分析、搜索和导出来自网络的大规模数据集；

  Facebook
Unicorn：社交图形搜索平台；

  Google
Caffeine：连续索引系统；

  Google
Percolator：连续索引系统；

  TeraGoogle：大型搜索索引；

  HBase
Coprocessor：为Percolator的实现，HBase的一部分；

  Lily
HBase Indexer：快速、轻松地搜索存储在HBase的任何内容；

  LinkedIn
Bobo：完全由Java编写的分面搜索的实现，为Apache Lucene的延伸；

  LinkedIn
Cleo：为一个一个灵活的软件库，使得局部、无序、实时预输入的搜索实现了快速发展；

  LinkedIn
Galene：LinkedIn搜索架构；

  LinkedIn
Zoie：是用Java编写的实时搜索/索引系统；

  Sphinx
Search Server：全文搜索引擎

MySQL的分支和演化

  Amazon
RDS：亚马逊云的MySQL数据库；

  Drizzle：MySQL的6.0的演化；

  Google
Cloud SQL：谷歌云的MySQL数据库；

  MariaDB：MySQL的增强版嵌入式替代品；

  MySQL
Cluster：使用NDB集群存储引擎的MySQL实现；

  Percona
Server：MySQL的增强版嵌入式替代品；

  ProxySQL：MySQL的高性能代理；

  TokuDB：用于MySQL和 MariaDB的存储引擎；

  WebScaleSQL：运行MySQL时面临类似挑战的几家公司，它们的工程师之间的合作。

PostgreSQL的分支和演化

  Yahoo
Everest - multi-peta-byte database / MPP derived by PostgreSQL.

  HadoopDB：MapReduce和DBMS的混合体；

  IBM
Netezza：高性能数据仓库设备；

  Postgres-XL：基于PostgreSQL，可扩展的开源数据库集群；

  RecDB：完全建立在PostgreSQL内部的开源推荐引擎；

  Stado：开源MPP数据库系统，只针对数据仓库和数据集市的应用程序；

  Yahoo
Everest：PostgreSQL可以推导多字节P比特数据库/MPP。

Memcached的分支和演化

  Facebook
McDipper：闪存的键/值缓存；

  Facebook
Memcached：Memcache的分支；

  Twemproxy：Memcached和Redis的快速、轻型代理；

  Twitter
Fatcache：闪存的键/值缓存；

  Twitter
Twemcache：Memcache的分支。

嵌入式数据库

  Actian
PSQL：Pervasive Software公司开发的ACID兼容的DBMS，在应用程序中嵌入了优化；

  BerkeleyDB：为键/值数据提供一个高性能的嵌入式数据库的一个软件库；

  HanoiDB：Erlang
LSM BTree存储；

  LevelDB：谷歌写的一个快速键-值存储库，它提供了从字符串键到字符串值的有序映射；

  LMDB：Symas开发的超快、超紧凑的键-值嵌入的式数据存储；

  RocksDB：基于性LevelDB，用于快速存储的嵌入式持续性键-值存储。

商业智能

  BIME
Analytics：商业智能云平台；

  Chartio：精益业务智能平台，用于可视化和探索数据；

  datapine：基于云的自助服务商业智能工具；

  Jaspersoft：功能强大的商业智能套件；

  Jedox Palo：定制的商业智能平台；

  Microsoft：商业智能软件和平台；

  Microstrategy：商业智能、移动智能和网络应用软件平台；

  Pentaho：商业智能平台；

  Qlik：商业智能和分析平台；

  Saiku：开源的分析平台；

  SpagoBI：开源商业智能平台；

  Tableau：商业智能平台；

  Zoomdata：大数据分析；

Jethrodata：交互式大数据分析。

数据可视化

  Airpal：用于PrestoDB的网页UI；

  Arbor：利用网络工作者和jQuery的图形可视化库；

  Banana：对存储在Kibana中Solr.
Port的日志和时戳数据进行可视化；

  Bokeh：一个功能强大的Python交互式可视化库，它针对要展示的现代web浏览器，旨在为D3.js风格的新奇的图形提供优雅简洁的设计，同时在大规模数据或流数据集中，通过高性能交互性来表达这种能力；

  C3：基于D3可重复使用的图表库；

  CartoDB：开源或免费增值的虚拟主机，用于带有强大的前端编辑功能和API的地理空间数据库；

  chartd：只带Img标签的反应灵敏、兼容Retina的图表；

  Chart.js：开源的HTML5图表可视化效果；

  Chartist.js：另一个开源HTML5图表可视化效果；

  Crossfilter：JavaScript库，用于在浏览器中探索多元大数据集，用Dc.js和D3.js.效果很好；

  Cubism：用于时间序列可视化的JavaScript库；

  Cytoscape：用于可视化复杂网络的JavaScript库；

  DC.js：维度图表，和Crossfilter一起使用，通过D3.js呈现出来，它比较擅长连接图表/附加的元数据，从而徘徊在D3的事件附近；

  D3：操作文件的JavaScript库；

  D3.compose：从可重复使用的图表和组件构成复杂的、数据驱动的可视化；

  D3Plus：一组相当强大的可重用的图表，还有D3.js的样式；

  Echarts：百度企业场景图表；

  Envisionjs：动态HTML5可视化；

  FnordMetric：写SQL查询，返回SVG图表，而不是表；

  Freeboard：针对IOT和其他Web混搭的开源实时仪表盘构建；

  Gephi：屡获殊荣的开源平台，可视化和操纵大型图形和网络连接，有点像Photoshop，但是针对于图表，适用于Windows和Mac
OS X；

  Google
Charts：简单的图表API；

  Grafana：石墨仪表板前端、编辑器和图形组合器；

  Graphite：可扩展的实时图表；

  Highcharts：简单而灵活的图表API；

  IPython：为交互式计算提供丰富的架构；

  Kibana：可视化日志和时间标记数据；

  Matplotlib：Python绘图；

  Metricsgraphic.js：建立在D3之上的库，针对时间序列数据进行最优化；

  NVD3：d3.js的图表组件；

  Peity：渐进式SVG条形图，折线和饼图；

  Plot.ly：易于使用的Web服务，它允许快速创建从热图到直方图等复杂的图表，使用图表Plotly的在线电子表格上传数据进行创建和设计；

  Plotly.js：支持plotly的开源JavaScript图形库；

  Recline：简单但功能强大的库，纯粹利用JavaScript和HTML构建数据应用；

  Redash：查询和可视化数据的开源平台；

  Shiny：针对R的Web应用程序框架；

  Sigma.js：JavaScript库，专门用于图形绘制；

  Vega：一个可视化语法；

  Zeppelin：一个笔记本式的协作数据分析；

  Zing
Charts：用于大数据的JavaScript图表库。

物联网和传感器

  TempoIQ：基于云的传感器分析；

  2lemetry：物联网平台；

  Pubnub：数据流网络；

  ThingWorx：ThingWorx
是让企业快速创建和运行互联应用程序平台；

  IFTTT：IFTTT
是一个被称为 “网络自动化神器” 的创新型互联网服务，它的全称是 If this then that，意思是“如果这样，那么就那样”；

  Evrythng：Evrythng则是一款真正意义上的大众物联网平台，使得身边的很多产品变得智能化。

文章推荐

  NoSQL
Comparison（NoSQL
比较）- Cassandra
vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Couchbase vs Neo4j vs Hypertable vs ElasticSearch vs Accumulo vs VoltDB vs Scalaris comparison；

  Big
Data Benchmark（大数据基准）- Redshift,
Hive, Shark, Impala and Stiger/Tez的基准；

  The
big data successor of the spreadsheet（电子表格的大数据继承者）
- 电子表格的继承者应该是大数据。

论文
2015 - 2016

  2015 - Facebook -
One Trillion Edges: Graph Processing at Facebook-Scale.（一兆边：Facebook规模的图像处理）

2013 - 2014

  2014 - Stanford - Mining
of Massive Datasets.（海量数据集挖掘）

  2013 - AMPLab -
Presto: Distributed Machine Learning and Graph Processing with Sparse Matrices. （Presto：稀疏矩阵的分布式机器学习和图像处理）

  2013 - AMPLab -
MLbase: A Distributed Machine-learning System. （MLbase：分布式机器学习系统）

  2013 - AMPLab -
Shark: SQL and Rich Analytics at Scale. （Shark:
大规模的SQL 和丰富的分析）

  2013 - AMPLab -
GraphX: A Resilient Distributed Graph System on Spark. （GraphX:基于Spark的弹性分布式图计算系统）

  2013 - Google -
HyperLogLog in Practice: Algorithmic Engineering of a State of The Art Cardinality Estimation Algorithm. （HyperLogLog实践:一个艺术形态的基数估算算法）

  2013 - Microsoft -
Scalable Progressive Analytics on Big Data in the Cloud.（云端大数据的可扩展性渐进分析）

  2013 - Metamarkets -
Druid: A Real-time Analytical Data Store. （Druid：实时分析数据存储）

  2013 - Google - Online,
Asynchronous Schema Change in F1.（F1中在线、异步模式的转变）

  2013 - Google -
F1: A Distributed SQL Database That Scales. （F1:
分布式SQL数据库）

  2013 - Google - MillWheel:
Fault-Tolerant Stream Processing at Internet Scale.（MillWheel:
互联网规模下的容错流处理）

  2013 - Facebook -
Scuba: Diving into Data at Facebook. （Scuba:
深入Facebook的数据世界）

  2013 - Facebook -
Unicorn: A System for Searching the Social Graph. （Unicorn:
一种搜索社交图的系统）

  2013 - Facebook - Scaling
Memcache at Facebook. （Facebook 对 Memcache 伸缩性的增强）

2011 - 2012

  2012 - Twitter -
The Unified Logging Infrastructure for Data Analytics at Twitter. （Twitter数据分析的统一日志基础结构）

  2012 - AMPLab –Blink
and It’s Done: Interactive Queries on Very Large Data. （Blink及其完成：超大规模数据的交互式查询）

  2012 - AMPLab –Fast
and Interactive Analytics over Hadoop Data with Spark. （Spark上 Hadoop数据的快速交互式分析）

  2012 - AMPLab –Shark:
Fast Data Analysis Using Coarse-grained Distributed Memory. （Shark：使用粗粒度的分布式内存快速数据分析）

  2012 - Microsoft –Paxos
Replicated State Machines as the Basis of a High-Performance Data Store. （Paxos的复制状态机——高性能数据存储的基础）

  2012 - Microsoft –Paxos
Made Parallel. （Paxos算法实现并行）

  2012 - AMPLab –
BlinkDB：BlinkDB: Queries with Bounded Errors and Bounded Response Times
on Very Large Data.（超大规模数据中有限误差与有界响应时间的查询）

  2012 - Google –Processing
a trillion cells per mouse click.（每次点击处理一兆个单元格）

  2012 - Google –Spanner:
Google’s Globally-Distributed Database.（Spanner：谷歌的全球分布式数据库）

  2011 - AMPLab –Scarlett:
Coping with Skewed Popularity Content in MapReduce Clusters.（Scarlett：应对MapReduce集群中的偏向性内容）

  2011 - AMPLab –Mesos:
A Platform for Fine-Grained Resource Sharing in the Data Center.（Mesos：数据中心中细粒度资源共享的平台）

  2011 - Google –Megastore:
Providing Scalable, Highly Available Storage for Interactive Services.（Megastore：为交互式服务提供可扩展，高度可用的存储）

2001 - 2010

  2010 - Facebook - Finding
a needle in Haystack: Facebook’s photo storage.（探究Haystack中的细微之处： Facebook图片存储）

  2010 - AMPLab - Spark:
Cluster Computing with Working Sets.（Spark:工作组上的集群计算）

  2010 - Google -
Storage Architecture and Challenges.（存储架构与挑战）

  2010 - Google -
Pregel: A System for Large-Scale Graph Processing.（Pregel:
一种大型图形处理系统）

  2010 - Google -
Large-scale Incremental Processing Using Distributed Transactions and Notiﬁcations base of Percolator and Caffeine.（使用基于Percolator
和 Caffeine平台分布式事务和通知的大规模增量处理）

  2010 - Google -
Dremel: Interactive Analysis of Web-Scale Datasets.（Dremel:
Web规模数据集的交互分析）

  2010 - Yahoo - S4:
Distributed Stream Computing Platform.（S4:分布式流计算平台）

  2009 -
HadoopDB：An
Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads.（混合MapReduce和DBMS技术用于分析工作负载的的架构）

  2008 - AMPLab -
Chukwa: A large-scale monitoring system.（Chukwa:
大型监控系统）

  2007 - Amazon -
Dynamo: Amazon’s Highly Available Key-value Store.（Dynamo:
亚马逊的高可用的关键价值存储）

  2006 - Google -
The Chubby lock service for loosely-coupled distributed systems.（面向松散耦合的分布式系统的锁服务）

  2006 - Google -
Bigtable: A Distributed Storage System for Structured Data.（Bigtable:
结构化数据的分布式存储系统）

  2004 - Google -
MapReduce: Simplied Data Processing on Large Clusters.（MapReduce:
大型集群上简化数据处理）

  2003 - Google -
The Google File System.（谷歌文件系统）

视频

数据可视化

  数据可视化之美

  Noah Iliinsky的数据可视化设计

  Hans
Rosling's 200 Countries, 200 Years, 4 Minutes

  冰桶挑战的数据可视化
一以上为“史上最全的“大数据”学习资料”全部内容，更多精彩内容请继续关注本博客。

编译自：https://github.com/onurakpolat/awesome-bigdata

译者：刘崇鑫校对：王殿进

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航