irqbalance机制分析

article/2025/11/7 0:41:42

本文档基于irqbalance-1.5.0

源码链接:https://launchpad.net/ubuntu/+source/irqbalance/

1. object tree

       Irqbalance是用户空间用于优化中断的一个工具,通过周期性的(默认10s)统计各个cpu上的中断情况,重新对中断进行再分配,实现各个cpu上中断负载相对均衡。中断均衡是建立再“object tree”的基础之上的,object   tree则是通过系统的拓扑结构建立的分层结构。根据系统结构属性NUMA node/packet/cache affinity可以将系统划分为自上而下的四层:node->package->cache->cpu。

       以16核双路服务器为例,系统有两个numa node,每个节点包含两个cluster,每个cluster包含4个cores,共享l2 cache。其结构简图如下:

                                            

   对应的object tree拓扑结构如图:

 

其中:

(1)每个节点为一个object,通过struct topo_obj描述。

(2)上下层之间的节点通过parent/child指针管理

(3)每一层都有一个全局链表头指针,用于组织管理处于同一层的所有节点。

 

2. 数据结构

2.1 Irq_info

       在树形拓扑结构建立之后,就需要统计各个节点上中断负载的信息,以便为重新分配中断提供依据。对于各个中断信息通过struct irq_info来描述。下面结合各个字段介绍下irqlabalance中几个比较关键的概念。

复制代码

struct irq_info {int irq;       //中断号int class;int type;int level;int flags;struct topo_obj *numa_node;    //中断当前所在node节点对应的objectcpumask_t cpumask;uint64_t irq_count;uint64_t last_irq_count;uint64_t load;int moved;struct topo_obj *assigned_obj; //中断被分配到节点对应的objectchar *name;
};

复制代码

(1) 中断类型(irq_info.class)

Irqbalance根据中断所属device的pci配置空间class code把中断分成了以下8种类型字。

复制代码

#define IRQ_OTHER       0
#define IRQ_LEGACY      1
#define IRQ_SCSI        2
#define IRQ_TIMER       3
#define IRQ_ETH         4
#define IRQ_GBETH       5
#define IRQ_10GBETH     6
#define IRQ_VIRT_EVENT  7

复制代码

其中:irq_info.class 与 pci配置空间 class code的映射关系如下:

    

 

 

(2) 中断层级(irq_info.level)

每种中断类型根据静态映射分别对应一种分配方式,分配方式一共有4种。

#define BALANCE_NONE           0  //表示中断不能进行迁移
#define BALANCE_PACKAGE        1  //表示中断只能在package层进行均衡
#define BALANCE_CACHE          2  //表示中断只能在cache层进行均衡
#define BALANCE_CORE           3  //表示中断只能在core层进行均衡

中断类型与其映射关系如表:

    

 

(3) 中断计数

       irq_info.irq_count 表示本次统计irq中断在各个cpu上产生的中断次数之

       irq_info.last_irq_count表示上次统计irq中断在各个cpu上的产生的中断次数之

    

 

(4) 中断的负载

       表示两次统计这段时间内中断增加所带来的负担。在irqbalance中把中断消耗的时间来衡量cpu的负担。

计算方法详见3.4(4).

2.2. topo_obj

“对象树“中的每个节点均为一个对象,通过struct topo_obj进行描述。

复制代码

struct topo_obj {uint64_t load;uint64_t last_load;uint64_t irq_count;enum obj_type_e obj_type;  //区别该节点位于哪一层。int number;                // object对应的索引int powersave_mode;cpumask_t mask;           //该节点下包含哪几个cpuGList *interrupts;           //组织被分配到该obj的中断struct topo_obj *parent;     //指向其上一层父对象的objGList *children;            //组织管理该obj包含的下层objGList *numa_nodes;      //指向最顶层所在node节点的objGList **obj_type_list;
};

复制代码

(1) object节点的负载(topo_obj.load)

  • cpu节点的load计算方法:

    在/proc/stat获取每个cpu的信息如下:

      

    其中第6/7项,分别代表自系统启动以来硬/软中断累计时间(单位是jiffies)。

    cpu负载:单个周期(10s)内,cpu处理软、硬中断的时间之和。

  • cpu拓扑层以上层各个节点的负载:

    父节点负载等于各孩子节点负载的总和 。

(2) 节点中断管理指针(topo_obj.interrupts)

       所有被分配到该节点上的中断都挂在该指针上。

(3) 节点中断计数(topo_obj.irq_count)

分配到该节点上的所有中断(即interrupts指针管理的链表上的中断)在单位周期(10s)内增加的次数之和。

(4) 节点的object类型(topo_obj.obj_type)

       object的类型,用来表明该对象处在对象树的哪一层次。Irqbalance 定义了如下4种类型。

     OBJ_TYPE_CPU,OBJ_TYPE_CACHE,OBJ_TYPE_PACKAGE,OBJ_TYPE_NODE

(5) powersave_mode

       用来表示该object是否处在省电模式。具体介绍详见4。

       Irqbalance默认是关闭powersave_mode的,但是用户可以通过irqbalance -p <n>来设置power_thresh。当系统内object的负载较小时,会自动切换到省电模式。

3. irqbalance处理流程

Irqbalance会周期性的(10s)统计系统中断的情况,主要的处理流程图如下:

    

 

 

下面针对各个部分作具体介绍:

 3.1 build_object_tree

(1)作用:

主要实现建立拓扑结构各个节点以及中断数据结构,并初始化。

(2)实现:

       通过遍历/sys/devices/system/node/node[*],决定有多少OBJ_TYPE_NODE的对象。

  通过遍历/sys/devices/system/cpu/cpu[*],以及是否online,决定有多少OBJ_TYPE_CPU的对象

  通过遍历/sys/devices/system/cpu/cpu[*]/cache/index[MAX]/shared_cpu_map决定有多少OBJ_TYPE_CACHE对象。

  通过遍历/topology/physical_package_id决定有多少OBJ_TYPE_PACKAGE的对象。

  通过遍历/sys/bus/pci/devices/0000:00:[**].[*]/下irq以及msi,建立各个irq的数据,并结合proc/irq/下文件初始化中断数据结构。这样irqbalance就知道该irq属于哪个node以及smp_affinity.

3.2 clear_work_stats

清除各个对象节点上分配中的负载值,以便重新赋值。

3.3 parse_proc_interrupts

       通过分析/proc/interrupts文件,更新各个irq在所有cpu上中断次数的累加和。

3.4 parse_proc_stats

(1) 计算各个对象节点的load,并更新到topo_obj.load。

cpu节点的负载: 通过分析/proc/stats统计硬/软中断的累计时间。

其余节点的负载:父节点负载=各孩子节点负载的总和

(2) 计算各个对象节点上所有中断在单位周期(10s) 内新增加的次数,并更新到load_slice.irq_count。

(3) 计算各个对象节点上单位周期内平均中断数local_count。

       由于分配到上层节点的中断最终要“均分”给下层,所以obj平均中断数loacl_count=obj.irq_cpunt +parent_obj.irq_count/(parent_obj的子节点数)。如图所示:

     

 

 (4) 计算对象上各个中断负载 irq_info.load

       单次中断对obj节点的负载贡献值(load_slice),即节点负载除以平均中断数:

           load_slice = topo_obj.load/local_count.

       那么该对象节点上各个中断负载就等于单次中断负载贡献值与中断次数的乘积:

      irq_info.load= load_slice*(irq_info.irq_count- irq_info.last_irq_count)

3.5 update_migration_status

通过平衡算法找出需要重新分配的中断。自下而上遍历各个拓扑层,针对每一层:

(1)遍历该层各个对象节点,计算该层的平均负载avg_load、标准方差std_deviation以及节点中负载最小值min_load.

(2)再次遍历该层各个拓扑节点,找到大于min­_load的节点,然后把该节点中的中断按照中断的irq_info.class由大到小并负载情况由大到小进行排序,然后依次从该节点移除,放到表头为rebalance_irq_list的链表中。

注意:中断从节点迁移后会更新该节点的负载以及min_load,当两者最接近时停止迁移中断。

    也就是说该步骤过后,需要迁移的中断都被放在了表头为rebalance_irq_list的链表中,后续会将这些中断重新分配。

3.6 calculate_placement

(1) 将存在rebalance_irq_list链表中的中断重新排序:优先按照中断的irq_info.class由大到小排列,如果class相同则按照load由大到小排列。

(2) 首先根据中断所在的numa nodeid将中断分配到不同的node 节点上。从这里可以看出中断是不会跨numa 节点迁移的,只能在同一numa node内部进行优化。

(3) 自上而下遍历各个个拓扑层,对于每一拓扑层:

      遍历该层节点上的中断,对每一个中断:

        遍历该节点所有孩子节点,将其迁移到负载最小的孩子节点上。

3.7 activate_mapping

       通过修改/proc/irq/[*]/smp_affinity,使处理生效

4. powersave mode

  Irqbalance支持powersave mode,默认是关闭的,但是用户可以通过irqbalance -p <n>来设置阈值power_thresh。开启该mode,Irqbalance会根据系统内object的负载情况,会自动将某个cpu object切换省电模式/正常模式。

  前面3.5小节(1)中,当遍历cpu层各个对象节点,根据load值计算出cpu平均负载avg_load、标准方差std_deviation后。

       (1) 如果load + std_deviation <= avg_load时,表明该cpu的负载较低,则会记录该cpu object,同时记录低负载的cpu个数

       (2)如果load - std_deviation >= avg_load时,表明该cpu 的负载比较高,也会记录高负载的cpu个数。

 

  在遍历完整个cpu层的所有节点后,如果不存在高负载cpu,同时低负载的cpu个数大于设定阈值,则会将最后记录的cpu对象的powersaved_mode字段置1. 后续在从rebalance_irq_list的链表重新分配中断时,就不会在分配到该cpu上。

  一旦系统中存在高负载cpu,irqlabalance就会清除所有cpu 对象的powersaved_mode,恢复正常模式。

5. 补充

1. 中断再分配时,需要先自上而下遍历各层各节点,将符合条件的节点上的中断先迁移到表头为rebalance_irq_list的链表中,然后再将链表中的中断按node->package->cache->cpu逐层分配到各个节点中(分配时会根据irq_info.level决定最终分配到哪一级节点上)。那么刚建立号中断数据库时,各个节点上还没有中断那么是如何操作的呢?

       刚建的中断数据库由指真interrupts_db来管理,初次建立好后会将所有的中断迁移到rebalance_irq_list中。然后将rebalance_irq_list链表中中断按node->package->cache->cpu逐层分配到各个节点中。

2. 如果一个package中有两个node时,irqbalance的拓扑层是如何划分的?

      

  在这种情况下,cache domian的父节点是package,但是numa节点的子节点是cache domians,而不再是packages,同时package的子节点任然是是cache domians。如图所示:

 

 

欢迎大家批评指正 :-)


http://chatgpt.dhexx.cn/article/brQh4rl3.shtml

相关文章

request_irq()

原文地址&#xff1a;http://blog.csdn.net/wealoong/article/details/7566546 一、中断注册方法 在Linux内核中用于申请中断的函数是request_irq&#xff08;&#xff09;&#xff0c;函数原型在Kernel/irq/manage.c中定义&#xff1a; int request_irq(unsigned int irq, ir…

linux IRQ Management(六)- DTS及调试

了解DTS Interrupt 设置方式。 1.DTS 中 interrupt 描述 interrupt-controller - 一个空的属性定义&#xff0c; 该节点作为一个接收中断信号的设备。 #interrupt-cells - 这是一个中断控制器节点的属性。它声明了该中断控制器的中断指示符中 cell 的个数&#xff08;类似于 …

Linux IRQ number和中断描述符

一、前言 本文主要围绕IRQ number和中断描述符&#xff08;interrupt descriptor&#xff09;这两个概念描述通用中断处理过程。第二章主要描述基本概念&#xff0c;包括什么是IRQ number&#xff0c;什么是中断描述符等。第三章描述中断描述符数据结构的各个成员。第四章描述…

irqbalance

http://www.bubuko.com/infodetail-1129360.html irqbalance 理论上&#xff1a; 启用 irqbalance 服务&#xff0c;既可以提升性能&#xff0c;又可以降低能耗。 irqbalance 用于优化中断分配&#xff0c;它会自动收集系统数据以分析使用模式&#xff0c;并依据系统负载状况…

linux irq 接口,Linux内核API irq_set_irq_type

irq_set_irq_type函数功能描述&#xff1a;此函数用于设置中断处理函数触发的类型&#xff0c;被操作的中断描述符保存在数组irq_desc中&#xff0c;对应的下标为参数irq的值&#xff0c;设置的中断触发类型为参数type所代表的类型。 irq_set_irq_type文件包含 irq_set_irq_typ…

Linux Irq domain

本节学习下什么是irq domain, 以及irq domain的作用。可以参考内核文档IRQ-domain.txt 为什么引入IRQ-Domain 当早期的系统只存在一个interrupt-controller的时候&#xff0c;而且中断数目也不多的时候&#xff0c;一个很简单的做法就是一个中断号对应到interrupt-contoller的…

linux IRQ Management(四)- IRQ Domain

了解IRQ Domain(中断控制器) 1.如何理解中断号&#xff1f; 每个IRQ同时有"irq"和"hwirq"两个编号。 "hwirq"是硬件中断号&#xff08;物理中断号&#xff09;&#xff0c;即芯片手册上写的号码&#xff0c;Interrupt controller用hwirq来标识…

linux设备驱动:中断处理中的hardirq与softirq详细流程

中断处理的整体框架&#xff1a; 内核用于标识中断上下文(in_interrupt())的变量preempt_count的布局&#xff1a; 按照x86处理器在外部中断发生时的硬件逻辑&#xff0c;在do_IRQ被调用时&#xff0c;处理器已经屏蔽了对外部中断的响应。在图中我们看 到中断的处理大体上被…

Java 字段封装快捷键

快捷键:shift alt s 选择&#xff1a;

Java封装阿里云对象存储OSS

Java封装阿里云对象存储OSS 阿里云对象存储OSS官网 本篇博客简单封装了阿里云的OSS存储中的建立连接&#xff1b;本地文件&#xff0c;输入流和URL三种方式上传文件&#xff0c;获取文件的输入流&#xff0c;删除文件&#xff0c;获取所有文件列表等功能。 OSS官方Api OSSp…

java 枚举 封装操作方法

前言&#xff1a; 由于刚转java项目&#xff0c;所以对于java语言比较陌生&#xff0c;尤其是lambda和一些诸如&#xff08;一个java文件只能有一个public class&#xff09;等等的零散知识点之类。。。 使我觉得就语言的层级来说。.net真的超越java不是一星半点。奈何.net跨…

Java封装和封装的案例

Java封装和封装的案例 目录 一、Java封装知识点简介 二、Java程序中的包 三、static关键字、代码块 四、封装的综合应用案例&#xff1a; 一、Java封装知识点简介 1、面向对象三大特性之封装的概念&#xff1a; 隐藏类的某些内部细节&#xff0c;不允许外部程序直接访问…

Java的封装方法

在面向对象程式设计方法中&#xff0c;封装&#xff08;英文名称&#xff1a;Encapsulation&#xff09;是指一种将抽象性函式接口的实现细节部份包装、隐藏起来的方法。封装可以被认为是一个保护屏障&#xff0c;防止该类的代码和数据被外部类定义的代码随机访问。要访问该类的…

Java封装如何封装 封装的好处是什么?

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、封装的作用是什么&#xff1f;二、封装的好处三、封装的步骤 1.引入库2.private的应用总结 前言 我要看电视&#xff0c;只需要按一下开关和换台就可以了。…

15、JAVA入门——封装

目录 一、封装 1、封装概述 2、封装的步骤 二、Java里的包 1、包的概述 2、包的定义 3、包的使用 4、注意事项 三、Java访问修饰符 1、类和类成员的访问控制 2、类的访问修饰符 3、类成员的访问修饰符 四、static关键字 1、static特点 2、static修饰属性 3、static修饰方法 4、…

初学java封装

封装 初识java封装 封装的用处&#xff1a; 1.提高程序的安全性&#xff0c;保护数据 2.隐藏代码的实现细节 3.统一接口 4.增加系统可维护性 这里创建一个类 public class Package {//属性私有private String name;//名字private int age; //年龄private int sex;//性别//1.…

java如何实现封装_java如何实现封装

Java中类的封装是如何实现的封装是将对象的信息隐藏在对象内部,禁止外部程序直接访问对象内部的属性和方法。 java封装类通过三个步骤实现: (1)修改属性的可见性,限制访问。 (2)设置属性的读取方法。 (3)在读取属性的方法中,添加对属性读取的限制。 Java中什么叫封装呢? 继…

java封装dll文件_java类封装成dll

1&#xff0c;建立测试类&#xff0c;注意英文注释部分&#xff0c;用汉语直接编译会乱码 public classHello {//native method is used for call other language procedure//if use chinese here then Compile would be gibberish public native voidprintHello();static{ Sys…

java之封装

1.封装 1. 封装 1.1 private关键字 private是一个修饰符&#xff0c;可以用来修饰成员&#xff08;成员变量&#xff0c;成员方法&#xff09; 被private修饰的成员&#xff0c;只能在本类进行访问&#xff0c;针对private修饰的成员变量&#xff0c;如果需要被其他类使用&…

【JavaScript】js中非常常见的面试题

文章目录 1、手动实现防抖和节流2、let、const、var 的区别3、箭头函数与普通函数区别4、Promise5、数据类型6、检测数据类型的常用方法1 .typeof2 . instanceof3 .constructor4 . 使用 Object.prototype.toString.call()检测对象类型⭐5 . 自己封装函数6、isArray 7、数组的常…