sge常用操作命令

您所在的位置:网站首页 查看可用节点的命令有哪些 sge常用操作命令

sge常用操作命令

2024-05-11 14:01| 来源: 网络整理| 查看: 265

sge常用操作命令 原创

头皮蟹子 2021-07-09 09:09:17 ©著作权

文章标签 sge 文章分类 运维

©著作权归作者所有:来自51CTO博客作者头皮蟹子的原创作品,请联系作者获取转载授权,否则将追究法律责任 主控节点:主控节点是所有集群活动的中心,控制SGE系统组件。一般情况,主控节点也是管理节点和提交节点。 执行节点:执行节点有权限执行作业的系统,执行节点有附加到它上面的队列。 管理节点:管理节点有权运行SGE系统的任何类型的管理操作。 提交节点:提交节点只允许用户提交和控制批处理作业。具体说,用户登陆后,可以使用qsub命令提交作业,使用qstat命令监控作业状态。   在SGE中,队列就是存放能在某一节点上运行的所有任务的容器。一个队列从某种方面也决定了所含任务的属性。 队列存在的本质:为任务提供服务 队列存在的意义:(由于SGE允许同时运行多个任务,为了优化资源利用)系统会试着最小负荷的合适队列开始新的任务 用户的基本概念 管理人员:管理人员拥有完全操作SGE系统的能力。默认情况,管理主机的超级用户都具有管理人员权限。 显示管理人员  qconf -sm 添加管理人员  qconf -am guanhuajin 删除管理人员  qconf -dm guanhuajin   操作员:操作员可以执行很多管理人员命令,但是进行配置更改除外。 显示操作人员  qconf -so 添加操作人员  qconf -ao guanhuajin 删除操作人员  qconf -do guanhuajin   拥有者:队列拥有者可以暂停或者启动其拥有的队列,还可以暂停或启动其拥有的队列中的作业。队列拥有者没有其他管理权限。 用户:用户有一定的访问权限。 显示所有用户的列表 qconf -suserl    qhost -- 显示执行节点的状态信息    qconf -- 提供集群配置和队列配置的用户界面 查看队列主机配置    qconf -shgrp @sci    为队列添加主机 qconf -mhgrp @队列名称前缀 增加主机记录,多个主机中间以空格间隔 队列名称以实际申请加入的为准   例:队列名称super.q 实际命令为 qconf -mhgrp @super   增加新的主机组,名为 @rdhosts , 组内仅含有一个主机 Node-240       [admin@ master ~]$ qconf -ahgrp @rdhosts   group_name @rdhosts hostlist Node-240   增加一个用户组(UserSet), rd, 组内成员为 @rd,san.zhang,test.rd,si.li     [admin@ master ~]$ qconf -au @rd,san.zhang,test.rd,si.li rd added "@rd,san.zhang,test.rd,si.li" to access list "rd"   配置用户允许投递队列的权限 在SGE集群中每个队列会对应有一个用户表,用户表名称与队列名前缀一致。例如test.q队列的用户表为test。如果一个用户要拥有test.q队列投递权限,则需要把此用户加入test用户表即可。 qconf -mu test   配置用户在集群中可同时运行的任务线程数 为了用户在SGE中过多的占用集群资源,默认会给SGE用户同时运行线程的数量限制为20。 qconf -mrqs   调整队列对服务器的使用限制 qconf -mq 队列名称  例:qconf -mq super.q 更改所在slots 所在行 添加节点以逗号隔开(格式如下图) 例[c0047.local=90] [主机名称=逻辑核数],逻辑核数为上述num_proc修改的值保持一致     qconf -sel 显示“执行主机”列表 qconf -sh 显示“管理主机”列表 qconf -ss 显示“提交任务主机”列表 qconf -sql 显示“集群队列”列表 qconf -spl 显示“集群并行环境”列表   任务查询 qstat qstat是一个非常有用的任务查询命令   prior 代表任务的优先级,数值越高越优先   name 为任务名称(这里为test)   slots ja-task-ID 线程数(这里为 1 )   qstat -u \* |grep c0028   sge常用操作命令_sge qstat的常用参数   qstat -f 查看用户任务    qstat -j jobId 按任务id查看    qstat -u user 查看指定用户投递的任务   查看可用节点 qselect qselect 的语法:   qselect -U  user_name 查看指定用户的可用队列节点  qselect -q sci.q 查看指定队列有哪些可用节点    挂起作业使用的命令 qhold 阻止已提交作业的执行 qhold 的语法:qhold jobid 任务挂起后,状态变为 hqw(任务挂起等待中,待依赖的任务完成后执行)   qrls 释放先前被阻止执行的作业 qrls 的语法:qrls jobid   qmod -s 暂停已经在运行的作业 qmod -s的语法:qmod -s jobid 任务挂起后,状态变为 s(暂时挂起)   qmod -us 启动暂停的作业 qmod -us的语法:qmod -us jobid   E是一个更糟糕的状态。这意味着计算节点(系统或作业本身)存在一个主要问题。SGE故意将队列标记为状态“ E”,以便其他作业不会遇到相同的严重问题。 即使重新启动群集,E状态也不会自动消失。一旦您认为集群很好,就可以使用“ qmod”命令清除E状态。   qmod -c  queue_name  清除状态为E的错误,将某个队列从错误状态变回正行状态   sge常用操作命令_sge_02 attention: qmod -s 和 qmod -us还可以用于暂停和启动队列, 前提是拥有对应的队列管理权限。   修改作业属性 qalter

 

qalter 语法:qalter [参数] 修改内容 jobid 常用参数: -q :修改指定队列 -l :修改限制资源 -N :修改指定作业名称 -P :修改指定项目名称   删除作业 qdel

 

qdel常用的参数: -f 强制删除 -u 删除指定用户的作业   qdel -f `qstat -u \*|grep -e dr -e dt|awk '{print $1}'` sge常用操作命令_sge_03sge常用操作命令_sge_04 收藏 评论 分享 举报

上一篇:ingress

下一篇:cuda安装



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3