安装主节点
1. 修改主节点的名称
hostnamectl set-hostname n225
修改/etc/hosts文件
vi /etc/hosts
127.0.0.1 hostname // 建议第一行 单独一行
2. 编译 root用户@主节点
./configure --enable-scp
make -j
make packages
echo '/usr/local/lib' > /etc/ld.so.conf.d/torque.conf
ldconfig
3. 配置
./torque.setup <user> //<user> 替换可以为非root用户
cp contrib/systemd/pbs_server.service /usr/lib/systemd/system/
cp contrib/systemd/pbs_sched.service /usr/lib/systemd/system/
cp contrib/systemd/trqauthd.service /usr/lib/systemd/system/
systemctl enable trqauthd.service
systemctl start trqauthd.service
#echo /usr/local/lib > /etc/ld.so.conf.d/torque.conf
#ldconfig
4. 编辑
vi /var/spool/torque/server_name
n225
vi /var/spool/torque/server_priv/nodes
n225 np=16
安装计算节点
1. 将master机器上生成的torque-package-*.sh文件复制到计算节点
2. 分别在计算节点上运行下面命令执行安装
./torque-package-mom-*.sh --install
./torque-package-clients-*.sh --install
3. 配置计算节点:
1. 在所有计算节点上运行下面命令启动mom服务
在mom_priv目录下新建一个config文件,加入下面的代码,同时将master及对应的IP地址加入计算节点的/etc/hosts文件中。
配置/mom_priv/config:
vi /var/spool/torque/mom_priv/config
$pbsserver master # note: hostname running pbs_server
$logevent 255 # bitmap of which events to log
2. 在master机器上添加节点
qmgr -c 'create node host1 np=2'
添加完成后可以在master机器上使用qnodes命令查看,此时看到的新加入的两个节点state应该是offline。
3. 在master机器上重启服务使修改生效
systemctl start pbs_sched.service
测试
1. 在master机器上写一个测试脚本/opt/test/sleep.sh, 内容如下
#!/bin/sh
sleep 600
2. 提交作业
qsub /opt/test/sleep.sh
3. 检查作业
qstat -a -n
其他设置:
1配置队列命令
qmgr -c "create queue batch queue_type=execution"
qmgr -c "set queue batch started=true"
qmgr -c "set queue batch enabled=true"
qmgr -c "set queue batch resources_default.nodes=1"
qmgr -c "set queue batch resources_default.walltime=3600"
2 如果测试有问题,修改配置后
用qterm中断pbs_server
qterm -t quick
然后重启service:pbs_server pbs_mom pbs_sched trqauthd等服务
链接:https://www.jianshu.com/p/b0550d6454e9