您的位置：首页 > 其它

需要关注的技术与工具

2013-06-17 14:34 246 查看

概述：基础虽然很重要，但是要学会技术总是在发展和进步之中，本篇的目的就是搜集目前的关键技术和工具，做一个索引，方便以后查阅。

1.技术篇

1)谷歌三大宝之map reduce：

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（化简）"，和他们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。
当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（化简）函数，用来保证所有映射的键值对中的每一个共享相同的键组。

具体可参考这里：http://blog.csdn.net/opennaive/article/details/7514146

2）谷歌三大宝之:GFS

GFS是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上，但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务

3)谷歌三大宝之：bigtable

4）分布式基础架构：Hadoop

一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop
Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high
throughput）来访问应用程序的数据，适合那些有着超大数据集（large
data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streaming access）文件系统中的数据。

5）分布式文件系统之HDFS

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity
hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

6）下一代单机文件系统btrfs

Btrfs（通常念成Butter
FS），由Oracle于2007年宣布并进行中的COW(copy-on-write式)文件系统。目标在取代Linux目前的ext3文件系统，改善ext3的限制，特别是单一文件的大小，总文件系统大小及加入文件校验和。加入目前ext3/4未支援的功能，例如可写的磁盘快照(snapshots)，以及支持递归的快照(snapshots
of snapshots)，内建磁盘阵列（RAID）支援，支持子卷(Subvolumes)的概念，支持在线调整文件系统大小。

2.工具篇

1）web服务器端软件：apache

2）Cgroups

cgroups是control groups的缩写，是Linux内核提供的一种可以限制、记录、隔离进程组（process groups）所使用的物理资源（如：cpu,memory,IO等等）的机制。最初由google的工程师提出，后来被整合进Linux内核。Cgroups也是LXC为实现虚拟化所使用的资源管理手段，可以说没有cgroups就没有LXC。

3.博客与技术

1）http://lwn.net/Articles/322666/ linux内核与相关开源软件

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航