Torque pbs 安装

安装主节点

1. 修改主节点的名称

hostnamectl set-hostname n225

修改/etc/hosts文件

vi /etc/hosts

127.0.0.1 hostname // 建议第一行 单独一行

2. 编译 root用户@主节点

./configure  --enable-scp
make  -j
make packages  

echo '/usr/local/lib' > /etc/ld.so.conf.d/torque.conf  
ldconfig  

3. 配置

./torque.setup <user>  //<user> 替换可以为非root用户
 
cp contrib/systemd/pbs_server.service /usr/lib/systemd/system/
cp contrib/systemd/pbs_sched.service /usr/lib/systemd/system/
cp contrib/systemd/trqauthd.service /usr/lib/systemd/system/

systemctl enable trqauthd.service
systemctl start trqauthd.service

#echo /usr/local/lib > /etc/ld.so.conf.d/torque.conf
#ldconfig

4. 编辑

vi /var/spool/torque/server_name

n225

vi /var/spool/torque/server_priv/nodes

n225 np=16

安装计算节点

1. 将master机器上生成的torque-package-*.sh文件复制到计算节点

2. 分别在计算节点上运行下面命令执行安装

./torque-package-mom-*.sh --install  
./torque-package-clients-*.sh --install

3. 配置计算节点:

1. 在所有计算节点上运行下面命令启动mom服务

在mom_priv目录下新建一个config文件,加入下面的代码,同时将master及对应的IP地址加入计算节点的/etc/hosts文件中。

配置/mom_priv/config:

vi /var/spool/torque/mom_priv/config

$pbsserver master # note: hostname running pbs_server
$logevent 255 # bitmap of which events to log

2. 在master机器上添加节点

qmgr -c 'create node host1 np=2'  

添加完成后可以在master机器上使用qnodes命令查看,此时看到的新加入的两个节点state应该是offline。

3. 在master机器上重启服务使修改生效

systemctl start pbs_sched.service

测试

1. 在master机器上写一个测试脚本/opt/test/sleep.sh, 内容如下

#!/bin/sh  
  
sleep 600 

2. 提交作业

qsub /opt/test/sleep.sh  

3. 检查作业

qstat -a -n  

其他设置:

1配置队列命令

qmgr -c "create queue batch queue_type=execution"
qmgr -c "set queue batch started=true"
qmgr -c "set queue batch enabled=true"
qmgr -c "set queue batch resources_default.nodes=1"
qmgr -c "set queue batch resources_default.walltime=3600"

2 如果测试有问题,修改配置后

用qterm中断pbs_server

qterm -t quick

然后重启service:pbs_server pbs_mom pbs_sched trqauthd等服务


链接:https://www.jianshu.com/p/b0550d6454e9

发表评论