您的位置:首页 > 产品设计 > UI/UE

Ubuntu 17.10 单节点安装TorquePBS 4.2.6

2018-02-02 23:01 471 查看
硬件平台: AMD1800X+ASUS prime X370-A

系统: Ubuntu 17.10, Kernel  4.13,默认编译器 gcc7.2


自己配了一个小的工作站,又用了AMD Ryzen的CPU,然后发现到目前为止Ubuntu只有17.04和17.10能够比较好的支持AMD Ryzen。然而装上17.04后,发现这个版本已经停止支持了,所以又装了17.10。这期间装系统就很费劲,因为主板UEFI和Legacy 的问题,重装了不下十几遍,终于弄明白了。然后就是装Torque,真是用了好大的劲才装好。

本来16.04LTS可以用已经编译好的TorquePBS(如果是16.04版本的可以参考这篇文章);然而很可惜,17.10版本在apt-get里没有找到安装包,所以只能源码安装了。我的安装过程主要参考了以下文章和官方安装文档:

http://blog.sina.com.cn/s/blog_960159610102xd0x.html
http://blog.csdn.net/jiayanhui2877/article/details/8230441


下面开始安装过程:

1. 下载安装包 torque-4.2.6.tar.gz并解压



tar -zxvf torque-4.2.6.tar.gz
cd torque-4.2.6/

2. 预编译

在预编译的时候需要注意的是17.10的默认编译器gcc版本为7.2,而torque4.2.6版本不认这个新的编译器,./configure可以通过,但是make会报错。解决的办法是安装旧一些的gcc和g++编译器,我安装了5.0版本的gcc和g++,然后在指定的目录<DIR>安装。



sudo apt-get install gcc-5 g++-5
./configure --prefix=<DIR> CC=gcc-5 CXX=g++-5

需要注意的是./configure之前需要安装一些依赖包,比如openssl、libxml-dev等,这个需要自行补全,可查阅官方安装文件,或者./configure会报错并提醒缺失的依赖包。然后进行make和make install。另外需要注意的是,如果是单节点计算,那么不需要make packages,因为只有一个节点。多节点计算需要将make packages后产生的文件复制到各个节点,但这不属于本文讨论的范围。

sudo make -j 8 #调用8个线程
sudo make install

3. 设置环境变量
注意,接下来的步骤都需要切换到root账户操作。修改环境变量,把torque的安装目录添加进去

emacs /etc/profile
#添加以下内容
TORQ=<DIR>
echo PATH=$TORQ/bin:$TORQ/sbin:$PATH

然后刷新root环境变量

source /etc/profile
./torque.setup root

4. 修改hosts文件

我的机器名为node0,修改/etc/hosts为

emacs /etc/hosts
127.0.0.1       node0 localhost
#127.0.1.1      node0

5. 进入/var/spool/torque
分别配置server,节点个数和mom,

echo node0 > /etc/torque/server_name

echo node0 np=10 > /var/spool/torque/server_priv/nodes #这里我设置了10个计算进程,虽然1800x只有8个物理核,但有16个进程

echo node0 > /var/spool/torque/mom_priv/config

6. 启动PBS

pbs_mom
qterm -t quick
pbs_server
pbs_sched

7. 检查
ps -aux | grep pbs # 进程里应该有pbs_server,pbs_mom,pbs_sched
qstat -q
qmgr -c 'p s' #输出pbs设置情况
pbsnodes -a

8. 配置队列

qmgr -c 'set server keep_completed = 5' #作业完成后会等待5秒消失
qmgr -c 'set queue batch resources_default.walltime = 360:00:00' #最长运行时间360小时
qmgr -c 'set queue batch resources_max.ncpus = 10'
qmgr -c 'set queue batch resources_default.nodes = 1'
qmgr -c 'set server operator +=user2@node0' #加入user2,使user2登陆后可以看到所有pbs作业内容,否则用户之间看不到

9. 测试队列

exit
source /etc/profile # 这一步是刷新当前用户环境变量
echo "sleep 30" | qsub
qstat

10. 配置开启启动
这里需要切换到root用户,然后进行一下操作

su
cd torque-4.2.6/contrib/init.d
cp debian.pbs_mom /etc/init.d/pbs_mom && update-rc.d pbs_mom defaults
cp debian.pbs_server /etc/init.d/pbs_server && update-rc.d pbs_server defaults
cp debian.pbs_sched /etc/init.d/pbs_sched && update-rc.d pbs_sched defaults
cp debian.trqauthd /etc/init.d/trqauthd && update-rc.d trqauthd default

这样就完成了torque4.2.6在Ubuntu17.10的安装!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  Ubuntu17.10 Torque