目录
1、理解什么是分析函数?
2、分析函数和聚合函数区别?
3、分析函数的语法:
4、常用的分析函数:
5、运用分析函数求相关累计问题
6、运用分析函数求相关排序问题
1. RANK()函数:
2. DENSE_RANK()函数:
3. ROW_NUMBER()函数:
4. LEAD()和LAG()函数:
7、字符串连接-listagg()函数
1、理解什么是分析函数?
分析函数又叫开窗函数,是一种SQL函数,可以在SELECT语句中使用,用于对查询结果进行分析和计算。分析函数可以在不改变查询结果集的情况下,对结果集中的行进行排序、分组、聚合、排名等操作,同时可以计算每个行的相关值,如行号、累计总和、平均值等。常见的Oracle分析函数包括:RANK、DENSE_RANK、ROW_NUMBER、LEAD、LAG、SUM、AVG、MAX、MIN等。
2、分析函数和聚合函数区别?
二者的区别在于,聚合函数一个组可以看到一条聚合函数的记录,而分析函数除了可以看分组的聚合数据,还可以看到每组内明细数据。
3、分析函数的语法:
函数名([列])OVER(PARTITION BY 列 ORDER BY 列)--一般格式
Select 函数名(列)over([partition by 列][order by 列])
Form 表;
4、常用的分析函数:
1.min(列) over([partition by 列][order by 列])
2.max(列) over([partition by 列][order by 列])
3.avg(列) over([partition by 列][order by 列])
4.sum(列) over([partition by 列][order by 列])
5.count(列) over([partition by 列][order by 列])
6.row_number()over([partition by]order by)
7.rank()over([partition by]order by)
8.dense_rank()over([partition by]order by)
9.lead(列[,数[,值]])over([partition by]order by)
10.lag(列[,数[,值]])over([partition by]order by)
11.listagg(列,'分隔符')within group(order by)over()
比如:
查询每个部门的最低工资,每种职位的平均工资,有提成的人数
select min(sal)over(partition by deptno) 部门最低,avg(sal)over(partition by job) 职位平均,count(comm)over() 人数
from emp;
查询每个人的姓名,部门编号,经理编号,部门最低工资,经理下属人数,全表最高工资
select ename,deptno,mgr,min(sal)over(partition by deptno) 部门最低,count(1)over(partition by mgr) 下属人数,max(sal)over() 全表最高
from emp
where mgr is not null;
5、运用分析函数求相关累计问题
可以使用SUM()函数结合OVER()子句来求累计值。
例如,以下SQL语句使用分析函数求取表t中字段a的累计总和:
SELECT a, SUM(a) OVER (ORDER BY id) AS cumulative_sum
FROM t;
在上面的SQL语句中,SUM(a)表示对字段a进行求和,OVER子句中的ORDER BY id表示按照id字段排序,cumulative_sum是自定义的别名,表示累计总和。执行以上SQL语句后,返回的结果集会包含原表中的字段a以及累计总和cumulative_sum。
其实求累计值(按值累计) 在over的括号内加上order by 即可,比如:
select sal,sum(sal)over(order by sal) 累计求和,avg(sal)over(order by sal) 累计平均
from emp;
--默认是按值累计
如果是按行累计,只需要在order by 后面加上
rows between unbounded preceding and current row;
比如:
select sal,sum(sal)over(order by sal rows between unbounded preceding and current row) 累计求和
from emp;
已知员工emp表,按部门分组,按名字排序,查询名字、部门、累计总工资、累计平均工资
select sal,ename,deptno,sum(sal)over(partition by deptno order by ename) 累计总工资,avg(sal)over(partition by deptno order by ename) 累计平均工资
from emp;
6、运用分析函数求相关排序问题
1. RANK()函数:
用于计算每个行在结果集中的排名,如果有相同的值,则会有相同的排名,下一个排名会跳过相同的排名。(比如考试排名,一共一百个人,其中有99个满分,那么最后一个不是满分的人则排第100名不是第2名,要清楚RANK()函数是并列跳一级 :1 2 2 4 5的排名法)
格式:
SELECT a, RANK() OVER(ORDER BY a DESC) AS rank
FROM t;
其中a是需要排序的列 ;
举例:
查询员工姓名、工资、工资排名:
select ename,sal,rank()over(ORDER BY sal desc) 排名 --√最合适
from emp;
查询员工姓名、工资、部门、部门内部的工资排名:
select ename,sal,deptno,rank()over(PARTITION BY deptno ORDER BY sal desc) 排名
from emp;
查询每个部门工资排名第一的员工信息:
select *
from (select e.*,rank()over(PARTITION BY deptno ORDER BY sal desc) 排名from emp e)
where 排名=1;
2. DENSE_RANK()函数:
与RANK()函数类似,但是如果有相同的值,则会有相同的排名,下一个排名不会跳过相同的排名。(比如比赛排名,可以并列排序,并且是属于并列不跳级:1 2 2 3 3 4,适合于颁奖之类)
格式:
SELECT a, DENSE_RANK() OVER(ORDER BY a DESC) AS dense_rank
FROM t;
举例:
假设有一个学生表student,包含学生姓名和科目成绩两个字段。现在需要查询每个科目的前三名学生姓名和对应的成绩。
SELECT subject, name, score
FROM (SELECT subject, name, score, dense_rank() OVER (PARTITION BY subject ORDER BY score DESC) AS rankFROM student
)
WHERE rank <= 3;
使用dense_rank()函数对学生表按照科目先进行分组,并按照成绩降序排列,然后根据排名筛选出每个科目的前三名学生。因为dense_rank()函数在分组时会跳过相同排名的行,因此可能出现相同排名的情况。
3. ROW_NUMBER()函数:
用于为结果集中的每一行生成一个唯一的序号。(常用于计数,序号不会重复,没有并列的情况: 1 2 3 4 5)
格式:
SELECT a, ROW_NUMBER() OVER(ORDER BY id) AS row_number
FROM t;
举例:
假设有一个订单表order,包含订单号、客户号、订单日期和订单金额四个字段。现在需要查询每个客户最近的订单信息。
SELECT order_id, customer_id, order_date, order_amount
FROM (SELECT order_id, customer_id, order_date, order_amount, row_number() OVER (PARTITION BY customer_id ORDER BY order_date DESC) AS rnFROM order
)
WHERE rn = 1;
使用row_number()函数对订单表先按照客户号进行分组,并按照订单日期降序排列,然后根据行编号筛选出每个客户最近的订单信息。因为row_number()函数会按照顺序对行进行编号,所以相同排序的行会有不同的编号。
4. LEAD()和LAG()函数:
用于访问当前行之前或之后的行。格式:
SELECT a, LEAD(a) OVER(ORDER BY id) AS next_a, LAG(a) OVER(ORDER BY id) AS prev_a
FROM t;
LEAD()函数返回当前行之后的行的值,LAG()函数返回当前行之前的行的值。
总结:
lead(列[,数[,值]])OVER([PARTITION BY]ORDER BY) 可以理解为起到带领(位置第一)的作用;
lag(列[,数[,值]])OVER([PARTITION BY]ORDER BY) 可以理解为拖延落后(位置最后);
注:列:要移动的列;数:要移动的距离,1,2位...;值:填补移动后空缺的数据位;
列和值的类型要一致;值不写默认空,数不写,默认是一位。
举例运用:
按照工资降序排序查询每一个人工资比他下一个人多多少:
分析:工资降序排序(即从高到低),每个人比自己下一个人多即自己是首部第一位置,所以用lead()函数;
select sal,sal-lead(sal)OVER(ORDER BY sal desc) a
from emp;
同理:按照工资降序排序查询每一个人工资比他上一个人少多少
select sal,lag(sal)over(order by sal desc)-sal
from emp;
7、字符串连接-listagg()函数
listagg函数是Oracle中的一种分析函数,用于将多行数据合并成一行,并用指定的分隔符进行连接。该函数的语法如下:
LISTAGG(column, delimiter) WITHIN GROUP (ORDER BY column)
--即
listagg(列,'分隔符')within group(order by 列)over()
其中,column为需要连接的列名,delimiter为分隔符,ORDER BY子句用于指定连接后的结果集的排序顺序。
例如,有如下订单表order_table:
order_id | customer_id | product |
1 | 1001 | Apple |
2 | 1001 | Banana |
3 | 1002 | Orange |
4 | 1003 | Apple |
5 | 1003 | Banana |
如果需要按照customer_id分组,将每个顾客下的产品名称用逗号连接起来,可以使用如下SQL语句:
SELECT customer_id, LISTAGG(product, ',') WITHIN GROUP (ORDER BY product) AS products
FROM order_table
GROUP BY customer_id;
执行结果如下:
customer_id | products |
1001 | Apple,Banana |
1002 | Orange |
1003 | Apple,Banana |
该函数的作用是将多行数据合并成一行,适用于需要将多行数据合并成一个字段的场景,例如将多个标签合并成一个字段。
总结:
row_number()over([partition by]order by)
rank()over([partition by]order by)
dense_rank()over([partition by]order by)
lead(列[,数[,值]])over([partition by]order by)
lag(列[,数[,值]])over([partition by]order by)
这五种分析函数必须要进行排序,即需要使用order by;