设集合D⊂Rn D ⊂ R n ,若对于任意点x,y∈D x , y ∈ D 及实数α∈[0,1] α ∈ [ 0 , 1 ] ,都有αx+(1−α)y∈D α x + ( 1 − α ) y ∈ D 则称集合D D 为凸集。
由凸集的定义可以看出凸集的几何意义,对于非空集合D,连接D D 中任意两点x,y的线段仍属于该集合,则该集合D D 是凸集。
图1所示的图形是凸集,图2显示的图形是非凸集。
凸函数定义:
设函数f(x)定义在凸集D⊂Rn D ⊂ R n 上,若对于任意的x,y∈D x , y ∈ D 及任意实数α∈[0,1] α ∈ [ 0 , 1 ] ,都有f[αx+(1−α)y]≤αf(x)+(1−α)f(y) f [ α x + ( 1 − α ) y ] ≤ α f ( x ) + ( 1 − α ) f ( y ) ,则称f(x) f ( x ) 为凸集D D 上的凸函数。
凸函数的充分必要条件:
(一阶条件)
设在凸集D⊂Rn上f(x) f ( x ) 可微,则f(x) f ( x ) 在D D 上为凸函数的充分必要条件是对任意的x,y∈D都有f(y)≥f(x)+∇f(x)T(y−x) f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) 证明: 必要性。 设f(x) f ( x ) 是D D 上的凸函数。任取x,y∈D及α∈[0,1] α ∈ [ 0 , 1 ] ,有
f[αy+(1−α)x]≤αf(y)+(1−α)f(x) f [ α y + ( 1 − α ) x ] ≤ α f ( y ) + ( 1 − α ) f ( x )
即
f[x+α(y−x)]≤f(x)+α[f(y)−f(x)] f [ x + α ( y − x ) ] ≤ f ( x ) + α [ f ( y ) − f ( x ) ]
由泰勒公式有
f[x+α(y−x)]=f(x)+α∇f(x)T(y−x)+o(∥α(y−x)∥) f [ x + α ( y − x ) ] = f ( x ) + α ∇ f ( x ) T ( y − x ) + o ( ‖ α ( y − x ) ‖ )
代入上式得
f(y)−f(x)≥∇f(x)T(y−x)+o(∥α(y−x)∥)α f ( y ) − f ( x ) ≥ ∇ f ( x ) T ( y − x ) + o ( ‖ α ( y − x ) ‖ ) α
上式两端取极限,令α→0 α → 0 有
f(y)≥f(x)+∇f(x)T(y−x) f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x )
充分性。因为D D 为凸集,所以设任意的x,y∈D,α∈[0,1] α ∈ [ 0 , 1 ] ,则αx+(1−α)y∈D α x + ( 1 − α ) y ∈ D
令αx+(1−α)y=z α x + ( 1 − α ) y = z ,有
f(x)−f(z)≥∇f(z)T(x−z)f(y)−f(z)≥∇f(z)T(y−z) f ( x ) − f ( z ) ≥ ∇ f ( z ) T ( x − z ) f ( y ) − f ( z ) ≥ ∇ f ( z ) T ( y − z )
用α,1−α α , 1 − α 分别乘上面两式得
α[f(x)−f(z)]≥α∇f(z)T(x−z)(1−α)[f(y)−f(z)]≥(1−α)∇f(z)T(y−z) α [ f ( x ) − f ( z ) ] ≥ α ∇ f ( z ) T ( x − z ) ( 1 − α ) [ f ( y ) − f ( z ) ] ≥ ( 1 − α ) ∇ f ( z ) T ( y − z )
相加并整理得
α[f(x)−f(z)]+(1−α)[f(y)−f(z)]≥α∇f(z)T(x−z)+(1−α)∇f(z)T(y−z)αf(x)−αf(z)+f(y)−f(z)−αf(y)+αf(z)≥∇f(z)T[αx−αz+y−z−αy+αz]αf(x)+(1−α)f(y)−f(z)≥∇f(z)T[αx+(1−α)y−z]=0αf(x)+(1−α)f(y)≥f(z) α [ f ( x ) − f ( z ) ] + ( 1 − α ) [ f ( y ) − f ( z ) ] ≥ α ∇ f ( z ) T ( x − z ) + ( 1 − α ) ∇ f ( z ) T ( y − z ) α f ( x ) − α f ( z ) + f ( y ) − f ( z ) − α f ( y ) + α f ( z ) ≥ ∇ f ( z ) T [ α x − α z + y − z − α y + α z ] α f ( x ) + ( 1 − α ) f ( y ) − f ( z ) ≥ ∇ f ( z ) T [ α x + ( 1 − α ) y − z ] = 0 α f ( x ) + ( 1 − α ) f ( y ) ≥ f ( z )
即
αf(x)+(1−α)f(y)≥f[αx+(1−α)y] α f ( x ) + ( 1 − α ) f ( y ) ≥ f [ α x + ( 1 − α ) y ] 故
f(x) f ( x ) 在
D D 上是凸函数。
(二阶条件)
设在开凸集D⊂Rn内
f(x) f ( x ) 二阶可微,则
f(x) f ( x ) 是
D D 内的凸函数的充分必要条件为在D内任意一点
x x 处,f(x)的海色(Hesse)矩阵
G(x) G ( x ) 半正定,其中
G(x)=∇2f(x)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢∂2f∂x12∂2f∂x1∂x2⋯∂2f∂x1∂xn∂2f∂x2∂x1∂2f∂x22⋯∂2f∂x2∂xn⋮⋮⋮∂2f∂xn∂x1∂2f∂xn∂x2⋯∂2f∂xn2⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥ G ( x ) = ∇ 2 f ( x ) = [ ∂ 2 f ∂ x 1 2 ∂ 2 f ∂ x 1 ∂ x 2 ⋯ ∂ 2 f ∂ x 1 ∂ x n ∂ 2 f ∂ x 2 ∂ x 1 ∂ 2 f ∂ x 2 2 ⋯ ∂ 2 f ∂ x 2 ∂ x n ⋮ ⋮ ⋮ ∂ 2 f ∂ x n ∂ x 1 ∂ 2 f ∂ x n ∂ x 2 ⋯ ∂ 2 f ∂ x n 2 ]
证明: 必要性。任取x∈D x ∈ D 及y∈Rn(y≠0) y ∈ R n ( y ≠ 0 ) ,因为D D 为开集,所以存在ε>0,当α∈[−ε,ε] α ∈ [ − ε , ε ] 时,x+αy∈D x + α y ∈ D ,由一阶条件可得
f(x+αy)≥f(x)+α∇f(x)Ty f ( x + α y ) ≥ f ( x ) + α ∇ f ( x ) T y
由泰勒公式有
f(x+αy)=f(x)+α∇f(x)Ty+12α2yTG(x)y+o(α2) f ( x + α y ) = f ( x ) + α ∇ f ( x ) T y + 1 2 α 2 y T G ( x ) y + o ( α 2 )
由此可得
12α2yTG(x)y+o(α2)≥0 1 2 α 2 y T G ( x ) y + o ( α 2 ) ≥ 0
所以
yTG(x)y+o(α2)α2≥0 y T G ( x ) y + o ( α 2 ) α 2 ≥ 0
令α→0 α → 0 ,取极限得
yTG(x)y≥0 y T G ( x ) y ≥ 0
即G(x) G ( x ) 半正定。
充分性。任取x,y∈D x , y ∈ D ,因为G(x) G ( x ) 半正定,由泰勒公式可得
f(y)=f(x)+∇f(x)T(y−x)+12(y−x)TG(ξ)(y−x)≥f(x)+∇f(x)T(y−x) f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T G ( ξ ) ( y − x ) ≥ f ( x ) + ∇ f ( x ) T ( y − x )
其中ξ=x+α(y−x),α∈(0,1) ξ = x + α ( y − x ) , α ∈ ( 0 , 1 ) 由一阶条件可得f(x) f ( x ) 为凸函数。
文章目录 1、凸集2、凸函数 对于《欠定线性系统与正则化》一节中的优化问题: ( P J ) : min x J ( x ) s . t . b A x (P_J):\min \limits_{\bf x} J({\bf x})\quad {\rm s.t.} \quad{\bf bAx} (PJ):xminJ(x)s.t.bAx 只要 J ( ⋅ ) J(\cdot) J(⋅)为严格凸的…
前言
对无人机进行轨迹规划时,需要对可行空间进行数学表示,可行空间通常被表示为凸组合的形式。
结论
在 R n R^n Rn中的m个向量 a 1 , a 2 , a 3 , . . . . . , a m a_1,a_2,a_3,.....,a_m a1,a2,a3,.....,am的凸组合是它们在n维空间的最小凸…
文章目录 1 凸集2 凸函数2.1 凸函数性质2.2 一阶判别公式2.3 二阶判别公式 3 凸规划 1 凸集
设集合 S ⊂ R n S\subset \R^n S⊂Rn,若 S S S中任意两点连线仍属于 S S S,则 S S S称为凸集,即 x 1 λ ( x 2 − x 1 ) ∈ S \bm x_1 \lambda…
4.1 凸集 convex sets
仿射集(Affine Sets):如果一个集合 C ∈ R n C\in\mathbb{R}^n C∈Rn 是仿射的,则在C中两点的直线也在C中,若 x 1 ∈ C , x 2 ∈ C , 则 x θ x 1 ( 1 − θ ) x 2 ∈ C , θ ∈ R x_1\in C,x…