IBM Platform LSF在IC行业内的使用

article/2025/10/26 1:09:16

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

LSF在IC设计中有哪些值得匹配的

1、管理低利用率Job

•针对short normal这类队列,查询20分钟以后,Job利用率依然很低的Job信息。

•$bjobs -u all -q short -o ‘id user queue stat ugroup first_host sla idle_factor slots run_time mem max_mem avg_mem job_name:15 cmd:45 eresreq start_time cpu_used’ | grep -Ev ‘xterm|console|gnome-terminal|verdi’ | grep -v JOBID| awk ‘{if(($10>1200)&&($8<0.12)&&(KaTeX parse error: Expected 'EOF', got '&' at position 8: 8!='-')&̲&(NF!=’-’’)) print $0}’

2.允许Job可以resize

•LSF可以通过lsb.applications 引入特定设置,允许用户的Job,可以被resize。

•Job在运行过程中,调整Job所需要CPU的数量(主要是减少,增加取决于剩余CPU)

•bresize release “4*hostA" JobID

3.配置严格的LDAP群组提交权限限制

•首先,可以通过Linux群组跟项目对应的方式,将每个项目对应多个Linux群组

•然后,可以通过bsub -G ug-projectA-xx来严格限制Linux的群组跟项目提交权限统一

•需要配置3个地方:etc/egroup lsb.users etc/esub

4.自动绑定core,避免Job在多个Core上漂移

•针对单core的队列,一般我们在short和normal的队列,只允许一个Job用一个CPU core

•cpubind=“affinity[thread(1,same=numa,exclusive=(core,injob)):cpubind=thread:distribute=pack]”

•可提升Job的计算效率

5.LSF设置elim信息

•举例:获取服务器/scratch磁盘目录大小 elim.scratch

#!/bin/sh

VOLUME=/scratch

RESOURCE=scratch

while true;do

root=df --block-size=1K $VOLUME | tail -1 | awk '{print $3}'

echo “1 $RESOURCE $root”

sleep 30

done

•在lsf.shared和lsf.cluster.clusername添加scratch相关资源配置,lsload –l可查看

6.配置内存不足自动挂起Job

•可以避免服务器死机

•不止内存,还有其他资源不足,如/tmp、服务器瞬时负载过高、/scratch空间不足

•lsb.queues:

Begin Queue

QUEUE_NAME = normal

r1m = 2.0/2.5 # loadSched/loadStop

mem = 20480/5120

tmp = 40960/20480

local = 40960/20480

7.配置Explorer,ElasticSearch存储Job信息
在这里插入图片描述

8.配置guarantee资源池

•主要有2种方式存在:slots guarantee和hosts guarantee两种
•一般slots保障,用于大量验证的情况,比如模拟的模块spice仿真,数字的regression验证。后端K库也可以用slots保障。
•而Hosts保障,经常用于综合,STA,BES,PD&PR等场景。

•lsb.serviceclasses:

Begin ServiceClass

NAME = ProjectA_SClass

GOALS = [GUARANTEE]

ACCESS_CONTROL = USERS[ProjectA_verify]

AUTO_ATTACH = N

End ServiceClass

•lsb.resources:

Begin GuaranteedResourcePool

NAME = 36c512g_SPool

TYPE = slots

HOSTS = 36c512gS_hgrp

ADMINISTRATORS=hpc-admins

DISTRIBUTION = [noClass,3600] [ProjectA_SClass,400]

End GuaranteedResourcePool

想要了解更多LSF相关资讯,可搜索:江苏信瑞一芯科技有限公司~~~江苏信瑞一芯科技有限公司是国内IBM的银牌代理商、netapp的金牌代理商。在这里插入图片描述
在这里插入图片描述


http://chatgpt.dhexx.cn/article/39aw0I8S.shtml

相关文章

IBM Spectrum LSF-手册

在所有规模的企业中&#xff0c;应用程序能力和数据量持续显著增长&#xff0c;推动了对更多计算能力和高性能管理和分析工具的需求。即使在传统的高性能计算(HPC)环境中&#xff0c;多个计算竖井、不均匀处理、设计周期泄漏和延迟结果也是常见的。面对日益严格的经济压力&…

LSF - 提交GUI应用到LSF无法运行,报错Failed to connect to socket /tmp/dbus-xxxxxxxxx: Connection refused

问题描述 提交GUI应用到LSF无法运行&#xff0c;如下所示 问题分析 这种GUI应用&#xff0c;不能以交互式的方式提交。提交命令换成bsub firefox即可。

LSF的使用方法总结

一、LSF 基本介绍 LSF&#xff08;Load Sharing Facility&#xff09;是IBM旗下的一款分布式集群管理系统软件&#xff0c;负责计算资源的管理和批处理作业的调度。它给用户提供统一的集群资源访问接口&#xff0c;让用户透明地访问整个集群资源。同时提供了丰富的功能和可定制…

IBM Spectrum LSF

IBM Spectrum LSF IBMSpectrum LSF系列是对用于高性能计算(HPC)环境的工作负载管理解决方案有一个完整的组合。具有全面的智能配套调度能力&#xff0c;它有助于确保正确的资源自动分配到正确的作业&#xff0c;最大限度地提高应用程序性能和效率。具有强大的管理功能和无与伦…

LSF - 集群概览

LSF - 集群概览 LSF - 术语与概念 Job状态 PEND 在队列中等待调度和调度的。RUN 发送到主机并运行。DONE 正常结束与零退出值。EXIT 以非零退出值结束。PSUSP 当作业挂起时挂起。USUSP 被用户挂起。SSUSP 被LSF系统挂起。POST_DONE 后处理完成&#xff0c;没有错误。POST_ER…

LSF集群搭建笔记

LSF-linux_amd64集群搭建记录 修改节点ip地址为静态ip安装并开启ssh服务修改主机名修改/etc/hosts文件(为了方便所有机器都要改)设置集群间ssh免密钥通信(如果想root间无需密码登陆需要设置了所有机器可以root登陆&#xff0c;并改root密码为固定密码&#xff0c;默认root密码每…

LSF集群基本概念介绍

集群的基本概念-作业 作业是集群中最重要的一个概念&#xff0c;用户通过提交作业申请集群计算资源&#xff0c;完成计算任务作业状态 • PEND &#xff08;待定&#xff09;- - 作业在队列中等待调度与分派 • RUN &#xff08;运行&#xff09;- - 作业已经被分派到节点机上…

LSF client安装

在master01节点添加&#xff1a; [rootmaster01 conf]# pwd /share01/app/lsf/conf [rootmaster01 conf]# ls cshrc.lsf lsf.cluster.nju_cluster1 lsf.shared perl.lsf ego lsf.conf lsf.shared.old profile.lsf lsbatch lsf.entitlement…

LSF Reordering

可通过[! ]重新排序作业调度主机。 假设&#xff1a; 主机resh1110h220 假设如上两个作业处于pending状态&#xff0c;在同一个调度周期内被调度器考虑&#xff0c;首先调度job1。 在调度周期的早期&#xff0c;通过获取集群中的所有主机或任何(-m)请求的主机列表中列出的主机…

LSF安装部署

前言 目前&#xff0c;市面上主流的HPC调度器分为LSF、SGE、Slurm、SGE四大类型&#xff0c;不同行业根据自身场景和不同调度器对应用支持力度的不同&#xff0c;往往会有不同的偏好&#xff0c;在芯片设计公司中最常用的是LSF LSF&#xff08;Load Sharing Facility&#xf…

关于LSF的高级用法

1、通过脚本查询Job的利用率和所占的Core数&#xff0c;从而管理低利用率的Job。 •通过脚本查询JOB的利用率和所占的CORE数&#xff0c;从而管理低利用率的JOB。 •低CPU利用率的JOB要特别小心&#xff0c;最可能存在2个原因&#xff1a;JOB缺少LICENSE导致等待&#xff1b;存…

LSF_术语及概念

术语及概念 作业状态&#xff1a; PEND&#xff1a;在队列中等待调度和分派。RUN&#xff1a;分配给指定主机并运行。DONE&#xff1a;返回值为0&#xff0c;正常结束。PSUSP&#xff1a;在调度和分派时暂停。&#xff08;具体暂停条件待考究&#xff09;USUSP&#xff1a;由…

LSF - 基础 - 管理

LSF - 基础 - 管理 在LSF环境下工作 启动、停止与重新配置LSF 使用 LSF 管理命令 lsadmin 和 badmin 来启动和停止 LSF 守护进程&#xff0c;并重新配置集群属性。 两个 LSF 管理命令&#xff08;lsadmin 和 badmin&#xff09; 这两个命令只有LSF管理员或root能运行。 要…

【学习OpenCV4】案例1:Windows OpenCV C++语言开发环境搭建

本文的案例内容源自于图书**《学习OpenCV 4&#xff1a;基于Python的算法实战》**&#xff0c;该书是国内第一本完整介绍OpenCV4的图书&#xff0c;第一章有在各个平台搭建环境的介绍&#xff0c;后面每个章节都有对模块的导读、模块经典算法的案例介绍以及进阶阅读&#xff0c…

【学习OpenCV4】OpenCV4入门介绍

本文内容大部分来自图书《学习OpenCV 4&#xff1a;基于Python的算法实战》&#xff0c;该书是国内第一本完整介绍OpenCV4的图书&#xff0c;第一章有在各个平台搭建环境的介绍&#xff0c;后面每个章节都有对模块的导读、模块经典算法的案例介绍以及进阶阅读&#xff0c;适合图…

学习OpenCV(1)概述

目录 基础知识 OpenCV的起源与目标 练习 基础知识 什么是OpenCV OpenCV是一个开源的计算机视觉库。OpenCV设计用于进行高效的计算&#xff0c;十分强调实时应用的开发。 什么是计算机视觉 计算机视觉这种技术可以将静止图像或视频数据转换为一种决策或新的表示。所有这种…

学习OpenCV3:Cmake+MinGW编译OpenCV

1. 准备 1.1 下载OpenCV源码 OpenCV下载地址1&#xff1a;https://opencv.org/releases/ OpenCV下载地址2&#xff1a;https://github.com/opencv/opencv/releases OpenCV下载地址3&#xff1a;https://github.com/opencv/opencv 提示&#xff1a;下载地址1和下载地址2可以直…

【学习OpenCV4】键盘鼠标操作总结

本文分享内容来自图书《学习OpenCV 4&#xff1a;基于Python的算法实战》&#xff0c;该书内容如下&#xff1a; 第1章 OpenCV快速入门&#xff1b; 第2章 图像读写模块imgcodecs&#xff1b; 第3章 核心库模块core&#xff1b; 第4章 图像处理模块imgproc&#xff08;一&…

【学习OpenCV4】OpenCV4与opencv-contrib模块介绍

本文分享内容来自图书《学习OpenCV 4&#xff1a;基于Python的算法实战》&#xff0c;该书刚刚上市&#xff0c;是国内第一本系统讲解OpenCV4各个模块的图书&#xff0c;配套案例深入浅出的讲解。第一章有在各个平台搭建环境的介绍&#xff0c;后面每个章节都有对模块的导读、模…