您的位置:首页 > 产品设计 > UI/UE

torque单机安装

2020-02-16 20:28 447 查看

如有错误,欢迎指正

关于torque

PBS是一个批处理作业和计算机系统资源管理的软件包,主要功能是在单机系统或计算机集群中调度资源、处理提交的任务并把输出转发给提交者。PBS包含openPBS、PBS Pro和Torque三个分支。本文介绍Torque的单机安装以及安装过程中容易遇到的问题。

下载

在别的博客里找到了两个下载地址:
http://www.adaptivecomputing.com/resources/downloads/torque/
(这个是官方的安装包 但是要注册 比较麻烦)
http://wpfilebase.s3.amazonaws.com/torque/torque-6.1.1.1.tar.gz
(6.1.1.1版本)
(wget http://wpfilebase.s3.amazonaws.com/torque/torque-6.1.1.1.tar.gz 命令下载即可)

安装前准备

因为是单机安装,所以管理节点和计算结点都在同一个计算机上。首先设置本机主机名。

$echo localhost

查看主机名,如果结果是localhost.localdomain,建议修改主机名

备注:
为什么建议修改主机名:
尝试过用localhost.localdomain作为主机名,配置管理节点、计算节点为localhost.localdomain,最后用pbsnodes检查节点是否配置成功的时候,遇到了connection refused的问题:

意思是无法连接到localhost这个节点,连接被拒绝。寻找对策,发现可以ping通127.0.0.1,也尝试了设置ssh无密码登录到localhost,也尝试了关闭防火墙,都没有效果。
为什么连接拒绝:
由于配置了localhost.localdomain为管理节点和计算节点,本机通过/etc/hosts找到这一节点的ip地址也就是127.0.0.1(集群的工作原理也一样)。关于127.0.0.1这个地址,其实是本机的本地回环地址,它代表设备的本地虚拟接口,所以默认被看作是永远不会宕掉的接口。一般都会用来检查本地网络协议、基本数据接口等是否正常的,是在安装网卡之前就可以ping通的。
解决方法:
编辑/etc/sysconfig/network(需要root用户或者sudo权限)修改主机名(这里改为master):

#vi /etc/sysconfig/network

添加一行/修改:

HOSTNAME=master

用reboot指令重启生效。
然后通过ifconfig指令获得本机的ip地址,例如得到ip地址为192.168.213.131。
编辑/etc/hosts添加一行:

192.168.213.131   master

至此安装前准备完成,配置好管理节点和计算节点为master后,torque作业提交系统在进行连接的时候,通过/etc/hosts找到的master主机的地址是192 .168.213.131而不是127.0.0.1,连接成功。【hadoop(分布式系统基础架构)在进行节点配置的时候也要注意这一问题】

安装

1.解压
wget http://wpfilebase.s3.amazonaws.com/torque/torque-6.1.1.1.tar.gz
下载完成后解压(例如/home/kkk目录下)
tar -zxvf torque-6.1.1.1.tar.gz

2.安装

$cd /home/kkk/torque-6.1.1.1
$./configure --prefix=/home/kkk/torque_install/ --with-scp --with-default-server=master
$make
$sudo make install
$make packages (这一步是为了在计算节点安装packages)

3.添加pbs_server, pbs_sched,pbs_mom, trqauthd到系统服务

$cp contrib/init.d/{pbs_{server,sched,mom},trqauthd} /etc/init.d/

4.添加环境变量到/etc/profile(需要root用户或者sudo权限)

#export TORQUE=/home/kkk/torque_install
#export PATH=$PATH:$TORQUE/bin:$TORQUE/sbin
#source /etc/profile
#echo '/usr/local/lib'>/etc/ld.so.conf.d/torque.conf
#ldconfig

5.设置管理账户(例如:kkk)

$./torque.setup kkk(自己的用户名)

6.配置管理节点(如果没有nodes这个文件要自己新建一个)
编辑/var/spool/torque/server_priv/nodes加入

master np=32

备注:master是管理节点的主机名 np=32表示cpu的核数为32

7.配置计算节点
编辑/var/spool/torque/mom_priv/config加入

pbsserver master

在计算节点(这里就是master本机)安装packages

$./torque-package-mon-*.sh --install
$./torque-package-clients-*.sh --install

8.开启服务
备注:如果前面开启了服务,再进行管理账户、管理节点、计算节点的配置(5、6、7步),则配置完需要重启服务(将下面指令的start改为restart,相应的停止服务用stop,查看服务状态用status)

$/etc/init.d/pbs_server start
$/etc/init.d/pbs_sched start
$/etc/init.d/pbs_mom start
$/etc/init.d/trqauthd start

或者

service pbs_server start
service pbs_sched start
service pbs_mom start
service trqauthd start

9.检查节点是否配置成功
pbsnodes查看一下各个节点
看到master节点以及state=free说明master节点配置成功

10.创建队列
torque安装之后需要一个队列,提交者将作业提交到队列中再由管理节点进行调度处理。先用指令

qmgr -c "q s"

查看是否存在batch队列(网上提到是安装后默认有这个batch队列的,但是有可能没有,还是先检查一下)

如果不存在batch队列(上图中缺少了create and define queue batch的部分),则用以下指令设置batch队列(需要root或者sudo权限):

qmgr -c "set server scheduling=true"
qmgr -c "create queue batch queue_type=execution"
qmgr -c "set queue batch started=true"
qmgr -c "set queue batch enabled=true"
qmgr -c "set queue batch resources_default.nodes=1"
qmgr -c "set queue batch resources_default.walltime=3600"
qmgr -c "set server default_queue=batch"

再输入qmgr -c "q s"查看已有的队列(正确结果如上图)。

检查

su kkk   //自己的用户名
echo sleep 200|qsub   //提交一个作业
qstat -an   //查看作业状态

可以查看到该作业正在运行(S一栏为R),说明安装成功(如下图)。

可能遇到的问题

1.安装完没有batch队列

意思是找不到batch队列。
解决方法:
按照上面第10点创建队列中的指令创建batch队列。

2.没有配置节点或者节点配置不成功

或者:

这样的提示说明没有配置节点或者节点配置不成功,需要检查/var/spool/torque/server_priv/nodes文件中是否配置了管理节点,/var/spool/torque/mom_priv/config文件中是否配置了计算节点。如果都配置了,则检查/etc/hosts中配置的管理节点和计算节点(单机的话就是同一个)的ip地址是否正确配置。

  • 点赞
  • 收藏
  • 分享
  • 文章举报
Light-12 发布了1 篇原创文章 · 获赞 0 · 访问量 330 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: