集群的基本概念-作业
- 作业是集群中最重要的一个概念,用户通过提交作业申请集群计算资源,完成计算任务
- 作业状态
• PEND (待定)- - 作业在队列中等待调度与分派
• RUN (运行)- - 作业已经被分派到节点机上,正在运行
• DONE (完成)- - 作业已正常结束,正常退出值为0
• EXIT (退出)- - 作业已经结束,但退出值不是0
• PSUSP(待定挂起)- - 作业在待定时被挂起
• USUSP(用户挂起)- - 作业被用户指定挂起
• SSUSP(系统挂起)- - 作业被L S F系统挂起
• POST_DONE(后处理完成)- - 作业的后处理动作,成功完成
• POST_ ERR(后处理出错)- - 作业的后处理动作,出错
• UNKWN(不确定)- - mb a t c h d与执行节点机上的s b a t c hd失去联系从而使作业状态不确定
• ZOMBI(僵尸)- - 作业成为僵尸是因为系统失去了与作业执行节点机的联系
集群的基本概念-作业状态

集群的基本概念-队列
• 用户提交的作业首先被放到特定的队列中
• 队列相当于一系列的待发作业,待发作业在队列中按照预定的顺序排列并等待着使用资源的机会
• 队列实施不同的作业调度和控制策略。所有提交到同一队列中的作业,拥有相同的作业调度与控
制策略
• 队列一些基本属性:
名称:这是队列唯一的标识
优先级:队列中的作业使用资源的优先级越高
队列限制:可以限制节点,作业数目,用户,组,处理器等
调度策略:先到先服务策略(FCFS)、公平策略、抢占策略、排它策略
调度窗口:队列中的作业使用集群资源的时间窗口
参考资料1:https://www.ibm.com/docs/en/spectrum-lsf/10.1.0?topic=execution-about-job-states
参考资料2:https://www.ibm.com/docs/en/spectrum-lsf/10.1.0?topic=execution-managing-job
参考资料3:https://www.ibm.com/docs/en/spectrum-lsf/10.1.0?topic=execution-view-job-information














