搭建CPU+GPU 集群
2012-10-06 23:01
387 查看
http://www.doserv.com/article/2012/0831/6188160.shtml
随着计算机科学技术突飞猛进的发展,计算物理已经成为物理学研究过程中与理论物理,实验物理同等重要的研究方向。计算物理经常需要对海量的数据进行复杂的计算,其对处理器的浮点运算能力、I/O 性能、内存容量以及带宽都要求较高。与此同时,呈数量级增长的数据对计算机硬件也提出了更大的挑战。无论是单台计算机还是超级计算机,因构架扩展的局限性或高额的经济成本,已无法满足科学计算的需求。计算机集群因其高速的运算性能、良好的兼容性及可扩展性,逐渐被科学计算领域所认同。中科院近代物理研究所一直以重离子
核物理基础研究和相关领域的交叉研究为主要学科方向,相应发展加速器物理及核技术。目前,中科院近物所超算中心已具有深腾7000G 超级计算集群一套,胖节点集群一套,专用工作站集群一套以及终端集群一套。其中深腾7000G 超级计算集群是CPU/GPU 混合集群,其余均是自建。
自建集群搭建
硬件搭建
中科院近代物理研究所超级计算中心自主搭建的CPU集群,共有22个节点及一个24 口千兆交换机。22个节点中一个作为管理节点,其余均为计算节点。每个计算节点配置如下:Intel Q6600CPU 处理器一个、2GB内存、160GB硬盘。管理节点装有两块。
网卡,一块连接对外以太网,一块连接集群节点间组成的局域网。连接方式如图1 所示。
软件安装集群所有节点(含管理节点)均安装RHEL5.6 操作系统,采用PXE +KickSTart的无人值守批量安装方式,这样除一个服务器节点外,其余节点无需光驱或者软驱。之后,大量的计算机采用网络安装Linux操作系统,不仅提高效率,而且节点相同的配置也利于以后集群系统的维护。PXE+KickSTart的安装需要DHCP和T F T P 服务, 将其配置于管理节点,KickSTart所生成的ks.cfg配置文件,存放在系统安装文件服务器Server上,安装节点主机需PXE 支持的网卡。
服务器依次配置IP地址、DHCP 服务、TFIT 服务及NFS 服务,之后配置ks.cfg 文件。ks.cfg 文件是待安装机器所有的配置文件,每台机器在安装Linux系统后都会自动生成ks.cfg,并记录系统安装时所做的每一步操作。然后配置共享的文件夹及PXE启动方式。保存后重启,安装自动完成。集群服务的配置管理节点一块网卡接外网,另一块接交换机,交换机用于连接计算节点所组成的局域网中的每个客户端。
每个计算节点的IP地址配置好后,安装SSH,并生成公钥和私钥,之后将.SSH 文件夹复制到集群其他节点上,验证是否所有节点之间可以SSH 无密码登录。在之前安装操作系统时用到了NFS 服务,NFS 是Network File System的简称,它的最大特点是可以通过网络让不同的机器彼此共享文件。在Client端扫描可以使用的Server 共享目录,之后建立挂载点,使用mount命令挂载远程共享目录,并验证所有节点是否已共享成功。
随着计算机科学技术突飞猛进的发展,计算物理已经成为物理学研究过程中与理论物理,实验物理同等重要的研究方向。计算物理经常需要对海量的数据进行复杂的计算,其对处理器的浮点运算能力、I/O 性能、内存容量以及带宽都要求较高。与此同时,呈数量级增长的数据对计算机硬件也提出了更大的挑战。无论是单台计算机还是超级计算机,因构架扩展的局限性或高额的经济成本,已无法满足科学计算的需求。计算机集群因其高速的运算性能、良好的兼容性及可扩展性,逐渐被科学计算领域所认同。中科院近代物理研究所一直以重离子
核物理基础研究和相关领域的交叉研究为主要学科方向,相应发展加速器物理及核技术。目前,中科院近物所超算中心已具有深腾7000G 超级计算集群一套,胖节点集群一套,专用工作站集群一套以及终端集群一套。其中深腾7000G 超级计算集群是CPU/GPU 混合集群,其余均是自建。
自建集群搭建
硬件搭建
中科院近代物理研究所超级计算中心自主搭建的CPU集群,共有22个节点及一个24 口千兆交换机。22个节点中一个作为管理节点,其余均为计算节点。每个计算节点配置如下:Intel Q6600CPU 处理器一个、2GB内存、160GB硬盘。管理节点装有两块。
网卡,一块连接对外以太网,一块连接集群节点间组成的局域网。连接方式如图1 所示。
软件安装集群所有节点(含管理节点)均安装RHEL5.6 操作系统,采用PXE +KickSTart的无人值守批量安装方式,这样除一个服务器节点外,其余节点无需光驱或者软驱。之后,大量的计算机采用网络安装Linux操作系统,不仅提高效率,而且节点相同的配置也利于以后集群系统的维护。PXE+KickSTart的安装需要DHCP和T F T P 服务, 将其配置于管理节点,KickSTart所生成的ks.cfg配置文件,存放在系统安装文件服务器Server上,安装节点主机需PXE 支持的网卡。
服务器依次配置IP地址、DHCP 服务、TFIT 服务及NFS 服务,之后配置ks.cfg 文件。ks.cfg 文件是待安装机器所有的配置文件,每台机器在安装Linux系统后都会自动生成ks.cfg,并记录系统安装时所做的每一步操作。然后配置共享的文件夹及PXE启动方式。保存后重启,安装自动完成。集群服务的配置管理节点一块网卡接外网,另一块接交换机,交换机用于连接计算节点所组成的局域网中的每个客户端。
每个计算节点的IP地址配置好后,安装SSH,并生成公钥和私钥,之后将.SSH 文件夹复制到集群其他节点上,验证是否所有节点之间可以SSH 无密码登录。在之前安装操作系统时用到了NFS 服务,NFS 是Network File System的简称,它的最大特点是可以通过网络让不同的机器彼此共享文件。在Client端扫描可以使用的Server 共享目录,之后建立挂载点,使用mount命令挂载远程共享目录,并验证所有节点是否已共享成功。
相关文章推荐
- CPU+GPU异构集群搭建的总结说明
- cpu gpu混合集群搭建
- 动手实践:搭建yolo v2(CPU+GPU)
- CPU 集群 / GPU 集群/ 异构集群 /分布式
- 集群管理——(5)ubuntu下安装tensorflow(cpu或者gpu)
- Windows10+Anaconda+TensorFlow(CPU & GPU)环境快速搭建
- windows系统下的keras(Theano/Tensorflow后端)CPU以及GPU加速环境搭建
- CPU+GPU集群计算中的一种动态负载均衡设计方法
- CPU-GPU服务器集群架设详细指南
- hadoop 2.4.1集群搭建
- 分布式存储 CentOS虚拟机环境搭建FastDFS集群
- Redis集群的搭建
- Zookeeper与Kafka集群搭建
- Linux+.NetCore+Nginx搭建集群
- Tensorflow之GPU和CPU
- 每秒处理3百万请求的Web集群搭建-如何生成每秒百万级别的 HTTP 请求?
- Nginx+Tomcat搭建高性能负载均衡集群
- kafka入门:简介、使用场景、设计原理、主要配置及集群搭建
- GPU和CPU耗时统计方法
- zookeeper集群搭建