凸集、凸函数与凸规划

article/2025/9/12 2:32:08

文章目录

  • 1 凸集
  • 2 凸函数
    • 2.1 凸函数性质
    • 2.2 一阶判别公式
    • 2.3 二阶判别公式
  • 3 凸规划


1 凸集

设集合 S ⊂ R n S\subset \R^n SRn,若 S S S中任意两点连线仍属于 S S S,则 S S S称为凸集,即
x 1 + λ ( x 2 − x 1 ) ∈ S \bm x_1 + \lambda(\bm x_2 - \bm x_1) \in S x1+λ(x2x1)S

图1 凸集(左)与非凸集(右)

2 凸函数

S S S R n \R^n Rn上的非空凸集, f f f是定义在 S S S上的实函数,若对任意 x 1 , x 2 ∈ S \bm x_1, \bm x_2 \in S x1,x2S,及 λ ∈ ( 0 , 1 ) \lambda \in (0, 1) λ(0,1),都有
f ( x 1 + λ ( x 2 − x 1 ) ) ≤ f ( x 1 ) + λ [ f ( x 2 ) − f ( x 1 ) ] f(\bm x_1+\lambda(\bm x_2 - \bm x_1))\leq f(\bm x_1) + \lambda[f(\bm x_2) - f(\bm x_1)] f(x1+λ(x2x1))f(x1)+λ[f(x2)f(x1)]

则称 f f f S S S上的凸函数
对于一元函数 f f f,凸函数的几何解释可简单理解为曲线 f f f上任意两点的弦不在曲线下方,如下图所示。

图2 凸函数

一元凸函数的几何证明


( x 1 , f ( x 1 ) ) , ( x 2 , f ( x 2 ) ) (x_1, f(x_1)), (x_2, f(x_2)) (x1,f(x1)),(x2,f(x2))为曲线 f f f上的两点,且满足 x 1 &lt; x &lt; x 2 x_1&lt; x &lt; x_2 x1<x<x2,由直线的两点式公式
y − y 1 y 2 − y 1 = x − x 1 x 2 − x 1 \frac{y-y_1}{y_2-y_1}=\frac{x-x_1}{x_2-x_1} y2y1yy1=x2x1xx1
知,该两点构成的弦所在直线的方程为
y − f ( x 1 ) f ( x 2 ) − f ( x 1 ) = x − x 1 x 2 − x 1 \frac{y-f(x_1)}{f(x_2)-f(x_1)}=\frac{x-x_1}{x_2-x_1} f(x2)f(x1)yf(x1)=x2x1xx1

由于弦上的点不小于对应曲线上的点,令 0 &lt; λ &lt; 1 0\lt\lambda\lt1 0<λ<1 x = x 1 + λ ( x 2 − x 1 ) x=x_1+\lambda(x_2-x_1) x=x1+λ(x2x1),得
y ≥ f ( x ) &ThickSpace; ⟹ &ThickSpace; f ( x 1 + λ ( x 2 − x 1 ) ) − f ( x 1 ) f ( x 2 ) − f ( x 1 ) ≤ x 1 + λ ( x 2 − x 1 ) − x 1 x 2 − x 1 y\geq f(x) \implies \frac{f(x_1+\lambda(x_2-x_1))-f(x_1)}{f(x_2)-f(x_1)}\leq\frac{x_1+\lambda(x_2-x_1)-x_1}{x_2-x_1} yf(x)f(x2)f(x1)f(x1+λ(x2x1))f(x1)x2x1x1+λ(x2x1)x1

因此 f ( x 1 + λ ( x 2 − x 1 ) ) ≤ f ( x 1 ) + λ ( f ( x 2 ) − f ( x 1 ) ) f(x_1+\lambda(x_2-x_1)) \leq f(x_1)+\lambda(f(x_2)-f(x_1)) f(x1+λ(x2x1))f(x1)+λ(f(x2)f(x1)),不等式得证。

2.1 凸函数性质

凸函数的局部极小点是全局极小点。

证明: x ∗ \bm x^* x是凸函数 f ( x ) f(\bm x) f(x)的局部极小点,假设 ∃ x ^ ∈ S \exists\hat \bm x \in S x^S,使得 f ( x ∗ ) &gt; f ( x ^ ) f(\bm x^*) &gt; f(\hat \bm x) f(x)>f(x^),则对任意 λ ∈ ( 0 , 1 ) \lambda \in(0, 1) λ(0,1),由凸集性质有
x ∗ + λ ( x ^ − x ∗ ) ∈ S \bm x^* + \lambda(\hat \bm x - \bm x^*) \in S x+λ(x^x)S

因此
f ( x ∗ + λ ( x ^ − x ∗ ) ) ≤ f ( x ∗ ) + λ [ f ( x ^ ) − f ( x ∗ ) ] &lt; f ( x ∗ ) f(\bm x^* + \lambda(\hat \bm x - \bm x^*))\leq f(\bm x^*) + \lambda[f(\hat\bm x) - f(\bm x^*)] &lt;f(\bm x^*) f(x+λ(x^x))f(x)+λ[f(x^)f(x)]<f(x)
上述不等式表明,对任意 λ ∈ ( 0 , 1 ) \lambda \in (0, 1) λ(0,1)都存在 f ( x ∗ + λ ( x ^ − x ∗ ) ) &lt; f ( x ∗ ) f(\bm x^* + \lambda(\hat \bm x - \bm x^*)) \lt f(\bm x^*) f(x+λ(x^x))<f(x),显然与 f ( x ∗ ) f(\bm x^*) f(x)是极小值矛盾。

2.2 一阶判别公式

f f f是定义在凸集 S S S上的可微函数,则 f f f为凸函数的充要条件是,对任意 x 1 , x 2 ∈ S \bm x_1, \bm x_2 \in S x1,x2S,有
f ( x 2 ) ≥ f ( x 1 ) + ∇ f ( x 1 ) T ( x 2 − x 1 ) f(\bm x_2)\geq f(\bm x_1)+\nabla f(\bm x_1)^T(\bm x_2 - \bm x_1) f(x2)f(x1)+f(x1)T(x2x1)

一阶判别公式证明


必要性
f ( x 1 + λ ( x 2 − x 1 ) ) ≤ f ( x 1 ) + λ ( f ( x 2 ) − f ( x 1 ) ) f(x_1+\lambda(x_2-x_1)) \leq f(x_1)+\lambda(f(x_2)-f(x_1)) f(x1+λ(x2x1))f(x1)+λ(f(x2)f(x1)),得
f ( x 2 ) ≥ f ( x 1 ) + f ( x 1 + λ ( x 2 − x 1 ) ) − f ( x 1 ) λ ( x 2 − x 1 ) ( x 2 − x 1 ) f(x_2)\geq f(x_1)+\frac{f(x_1+\lambda(x_2-x_1))-f(x_1)}{\lambda (x_2-x_1)}(x_2-x_1) f(x2)f(x1)+λ(x2x1)f(x1+λ(x2x1))f(x1)(x2x1)

显然当 λ → 0 \lambda \to 0 λ0时, f ( x 2 ) ≥ f ( x 1 ) + f ′ ( x 1 ) ( x 2 − x 1 ) f(x_2)\geq f(x_1)+f&#x27;(x_1)(x_2-x_1) f(x2)f(x1)+f(x1)(x2x1),必要性得证。

充分性
f ( x ) ≥ f ( y ) + f ′ ( y ) ( x − y ) f(x)\geq f(y)+f&#x27;(y)(x-y) f(x)f(y)+f(y)(xy),因此
f ( x 1 ) ≥ f ( y ) + f ′ ( y ) ( x 1 − y ) , f ( x 2 ) ≥ f ( y ) + f ′ ( y ) ( x 2 − y ) f(x_1) \geq f(y)+f&#x27;(y)(x_1-y),\quad f(x_2) \geq f(y)+f&#x27;(y)(x_2-y) f(x1)f(y)+f(y)(x1y),f(x2)f(y)+f(y)(x2y)

因此令 y = x 1 + λ ( x 2 − x 1 ) y=x_1+\lambda(x_2-x_1) y=x1+λ(x2x1),上面左侧不等式两侧乘 ( 1 − λ ) (1-\lambda) (1λ)、右侧不等式两侧乘 λ \lambda λ,合并两个不等式得
( 1 − λ ) f ( x 1 ) + λ f ( x 2 ) ≥ f ( y ) + f ′ ( y ) [ x 1 + λ ( x 2 − x 1 ) − y ] = f ( y ) (1-\lambda)f(x_1)+\lambda f(x_2) \geq f(y) + f&#x27;(y)[x_1+\lambda(x_2-x_1) - y]=f(y) (1λ)f(x1)+λf(x2)f(y)+f(y)[x1+λ(x2x1)y]=f(y)

显然 f ( x 1 + λ ( x 2 − x 1 ) ) ≤ f ( x 1 ) + λ ( f ( x 2 ) − f ( x 1 ) ) f(x_1+\lambda(x_2-x_1)) \leq f(x_1)+\lambda(f(x_2)-f(x_1)) f(x1+λ(x2x1))f(x1)+λ(f(x2)f(x1)),充分性得证。

几何解释: ( x , f ( x ) ) (x, f(x)) (x,f(x))为曲线 f f f上一点, y y y为该点处的切线,则自变量 x x x增加 Δ x \Delta x Δx,对曲线 f f f和切线 y y y带来的变化分别为 Δ f \Delta f Δf Δ y \Delta y Δy,则
Δ f &gt; Δ y \Delta f \gt \Delta y Δf>Δy

图 一元凸函数判别公式的几何意义

2.3 二阶判别公式

f f f是定义在凸集 S S S上的二阶可微函数,则 f f f为凸函数的充要条件是在任意 x ∈ S \bm x \in S xS处,Hesse矩阵半正定。

二阶判别公式证明


必要性
对任一点 x ∗ ∈ S \bm x^* \in S xS,存在 λ ∈ [ − δ , δ ] \lambda \in [-\delta, \delta] λ[δ,δ],有 x ∗ + λ x ∈ S \bm x^* + \lambda \bm x \in S x+λxS,因此
f ( x ∗ + λ x ) ≥ f ( x ∗ ) + λ ∇ f ( x ∗ ) T x f(\bm x^* + \lambda \bm x) \geq f(\bm x^*) + \lambda \nabla f(\bm x^*)^T \bm x f(x+λx)f(x)+λf(x)Tx

f ( x ) f(\bm x) f(x)在点 x ∗ \bm x^* x处二次可微,则
f ( x ∗ + λ x ) = f ( x ∗ ) + λ ∇ f ( x ∗ ) T x + 1 2 λ 2 x T ∇ 2 f ( x ∗ ) x + o ( ∣ ∣ λ x ∣ ∣ 2 ) f(\bm x^* + \lambda \bm x)=f(\bm x^*) + \lambda \nabla f(\bm x^*)^T \bm x+\frac{1}{2}\lambda^2\bm x^T\nabla^2f(\bm x^*)\bm x + o(||\lambda \bm x||^2) f(x+λx)=f(x)+λf(x)Tx+21λ2xT2f(x)x+o(λx2)

1 2 λ 2 x T ∇ 2 f ( x ∗ ) x + o ( ∣ ∣ λ x ∣ ∣ 2 ) ≥ 0 \dfrac{1}{2}\lambda^2\bm x^T\nabla^2f(\bm x^*)\bm x + o(||\lambda \bm x||^2)\geq0 21λ2xT2f(x)x+o(λx2)0,因此
x T ∇ 2 f ( x ∗ ) x ≥ 0 \bm x^T\nabla^2f(\bm x^*)\bm x \geq 0 xT2f(x)x0

∇ 2 f ( x ∗ ) \nabla^2f(\bm x^*) 2f(x)半正定,必要性得证。

充分性
设Hesse矩阵 ∇ 2 f ( x ) \nabla^2f(\bm x) 2f(x)在每一点 x ∈ S \bm x\in S xS处半正定,对任意 x ∗ , x ∈ \bm x^*, \bm x\in x,x 凸集 S S S,由中值定理得
f ( x ) = f ( x ∗ ) + ∇ f ( x ∗ ) T ( x − x ∗ ) + 1 2 ( x − x ∗ ) 2 ∇ 2 f ( x ^ ) ( x − x ∗ ) f(\bm x) = f(\bm x^*) + \nabla f(\bm x^*)^T(\bm x-\bm x^*)+\frac{1}{2}(\bm x-\bm x^*)^2\nabla^2f(\hat \bm x)(\bm x-\bm x^*) f(x)=f(x)+f(x)T(xx)+21(xx)22f(x^)(xx)

其中 x ^ = x + λ ( x ∗ − x ) \hat \bm x=\bm x+\lambda(\bm x^*-\bm x) x^=x+λ(xx),因此当 ∇ 2 f ( x ^ ) \nabla^2f(\hat \bm x) 2f(x^)半正定时,必有
( x − x ‾ ) T ∇ 2 f ( x ^ ) ( x − x ‾ ) ≥ 0 (x-\overline x)^T\nabla^2f(\hat x)(x-\overline x)\geq 0 (xx)T2f(x^)(xx)0

f ( x ) ≥ f ( x ∗ ) + ∇ f ( x ∗ ) T ( x − x ∗ ) f(\bm x) \geq f(\bm x^*) + \nabla f(\bm x^*)^T(\bm x-\bm x^*) f(x)f(x)+f(x)T(xx),充分性得证。

3 凸规划

考虑非线性规划问题
min ⁡ f ( x ) x ∈ R n s.t. g i ( x ) ≤ 0 , i = 1 , ⋯ &ThinSpace; , m h j ( x ) = 0 , j = 1 , ⋯ &ThinSpace; , l \begin{aligned} \min &amp;\quad f(\bm{x}) \quad \bm{x}\in\R^n\\ \text{s.t.} &amp;\quad g_i(\bm{x}) \leq 0,\quad i=1,\cdots,m\\ &amp;\quad h_j(\bm{x}) = 0,\quad j=1,\cdots,l\\ \end{aligned} mins.t.f(x)xRngi(x)0,i=1,,mhj(x)=0,j=1,,l

f ( x ) f(\bm x) f(x)为凸函数, g i ( x ) g_i(\bm x) gi(x)为凸函数, h j ( x ) h_j(\bm x) hj(x)是线性函数,则问题的可行域为
S = { x ∣ g i ( x ) ≥ 0 , i = 1 , ⋯ &ThinSpace; , m ; h j ( x ) = 0 , j = 1 , ⋯ &ThinSpace; , l } S = \{ \bm x\ |\ g_i(\bm x)\geq 0, i= 1,\cdots, m;\ h_j(\bm x)=0, j = 1,\cdots,l\} S={x  gi(x)0,i=1,,m; hj(x)=0,j=1,,l}

上述问题是求凸函数在凸集上的极小点,这类问题成为凸规划

重要性质:凸规划的局部极小点就是全局极小点,证明见2.1。


http://chatgpt.dhexx.cn/article/Y3QNTCFj.shtml

相关文章

凸优化学习(二)——凸集

注意&#xff0c;本文内容来自于吴恩达老师cs229课堂笔记的中文翻译项目:https://github.com/Kivy-CN/Stanford-CS-229-CN 中的凸优化部分的内容进行翻译学习。 2. 凸集 我们从凸集的概念开始研究凸优化问题。 定义2.1 我们定义一个集合是凸的&#xff0c;当且仅当任意 x , y…

凸优化第一【凸集与凸优化简介】

【本文仅供学习记录&#xff0c;概无其他用处&#xff0c;一些图片资源来自网络&#xff0c;侵删】 凸优化是一个简单的优化问题&#xff0c;优化-数学规划概念相同&#xff0c;本课程主要学习的内容包括&#xff1a;凸集、凸函数、凸优化和有关凸优化的一些算法。 优化&…

凸优化笔记(一):仿射集,凸集与锥

一.直线和线段 设为空间中的两个点。 直线&#xff1a; 线段&#xff1a; 二.仿射集&#xff08;Affine Set&#xff09;凸集&#xff08;Convex Set&#xff09;和锥&#xff08;Cones&#xff09; 仿射集 仿射集&#xff1a;通过集合中任意两个不同点的直线仍然在集合C中…

【机器学习】凸集、凸函数、凸优化、凸优化问题、非凸优化问题概念详解

目录 1 基本概念2 凸优化问题3 非凸优化问题4 总结 1 基本概念 &#xff08;1&#xff09;凸集和非凸集 凸集是一个点集&#xff0c; 这个点集有一个性质&#xff0c; 就是在这个集合中任取不同的两个点x和y&#xff0c; 他们之间的线段&#xff08;包括端点&#xff09;上的点…

凸优化学习(一)凸集与凸函数、凸优化问题

4.1 凸集 convex sets 仿射集&#xff08;Affine Sets&#xff09;&#xff1a;如果一个集合 C ∈ R n C\in\mathbb{R}^n C∈Rn 是仿射的&#xff0c;则在C中两点的直线也在C中&#xff0c;若 x 1 ∈ C , x 2 ∈ C , 则 x θ x 1 ( 1 − θ ) x 2 ∈ C , θ ∈ R x_1\in C,x…

【凸优化笔记二】凸函数基本性质和例子

【凸优化笔记二】凸函数基本性质和例子 凸函数的四个定义定义一定义二定义三定义四 一些栗子 凸函数的四个定义 定义一 其中 dom f f f 是函数 f f f 的 定义域&#xff08;前域&#xff09;&#xff0c;为凸集——这个很重要&#xff0c;后面的一些定义中也会用到&#xff…

凸函数

凸函数有一个很好的性质&#xff0c;即只要能证明我们求解的问题是凸函数&#xff0c;最终得到的解一定是全局最优解 首先得注意一下&#xff1a; 中国大陆数学界某些机构关于函数凹凸性定义和国外的定义是相反的。Convex Function在中国大陆某些的数学书中&#xff0c;比如说…

最优化理论基础与方法学习笔记——凸集与凸函数以及手写定理证明

文章目录 凸集的定义凸集的几何意义有关凸集的定理 定理1.4.2内点、边界点和闭包的定义定义1.4.3 超平面的定义定理1.4.3 投影定理定理1.4.4 点与凸集的分离定理定理1.4.5 支撑超平面定理定义1.4.4 凸函数的定义定义1.4.5 水平集定理1.4.6 凸函数的水平集还是凸集定理1.4.7 函数…

凸优化 - 2 - 凸集和凸函数

本总结是是个人为防止遗忘而作&#xff0c;不得转载和商用。 前提说明&#xff1a;为了方便查阅&#xff0c;我将整个凸优化的内容分成了很多部分&#xff0c;因为后面的部分用到了前面的知识&#xff0c;所以&#xff0c;如果你的目的是查看后面的内容但对前面的某个知识点不甚…

凸和非凸的理解

目录 一句话概括一、凸和非凸的区别二、凸函数和非凸函数三、凸优化和非凸优化凸优化&#xff1a;常见的凸优化方法&#xff1a;凸优化的一般求解过程非凸优化&#xff1a; 一句话概括 凸&#xff08;Convex&#xff09;&#xff1a;在该区间函数图象上的任意两点所连成的线段…

凸集与非凸集,凸函数与凹函数,凸优化

关于凸集与非凸集&#xff0c;凸函数与凹函数&#xff0c;凸优化的概念一直混淆&#xff0c;在此整理下相关定义和概念&#xff0c;希望给有需要的人。 凸集&#xff1a;集合中的任意两点连线的点都在该集合中&#xff0c;则称该集合为凸集&#xff1b;凹集为非凸集。 函数的…

最优化——凸集

引言 这是中科大最优化理论的笔记&#xff0c;中科大凌青老师的凸优化课程&#xff0c;详尽易懂&#xff0c;基础扎实。不论是初学者还是从业多年的人&#xff0c;都值得系统地好好学一遍。 本文介绍什么是凸集、凸包与凸锥包。 仿射集 我们先来看最简单的凸集——仿射集(A…

凸集

本文参考自清华大学研究生公共课教材——数学系列《最优化理论与算法》&#xff08;第二版&#xff09; 一&#xff1a;凸集 定义&#xff1a;设S为n维欧式空间中中的一个集合&#xff0c;若对S中任意两点&#xff0c;联结它们的线段仍属于S&#xff0c;称这样的集合S是一个凸…

凸集(Convex sets)

凸集&#xff08;Convex sets&#xff09; 1.仿射集和凸集 仿射集(Affine set)&#xff1a; 定义&#xff1a;如果通过C中任意两个不同点的线位于C中&#xff0c;则集合C⊆Rn就是仿射 其中&#xff0c; 凸集(Convex set)&#xff1a; 定义&#xff1a;如果C中的任意两点之间的…

【深度学习】logistic回归模型

目录 神经网络 数据、符号准备&#xff1a; logistic回归&#xff1a; 损失函数和代价函数&#xff1a; 梯度下降法&#xff1a; 向量化&#xff1a; 神经网络 我们学习深度学习的目的就是用于去训练神经网络&#xff0c;而神经网络是什么呢&#xff1f;我们先来看下面一…

十分钟理解logistic回归原理

关于逻辑回归的分类算法&#xff0c;很多书籍都有介绍&#xff0c;比较来看&#xff0c;还是**李航老师的书《统计学习方法》**里介绍的更清楚&#xff0c;若大家有时间&#xff0c;请不要偷懒&#xff0c;还是建议从头开始看李航老师的书&#xff0c;这本书简洁明了&#xff0…

python数据挖掘学习笔记——logistic逻辑回归实现

Logistic逻辑回归分析 logistic模型的基本介绍python中实现logistic回归模型的评价混淆矩阵ROC曲线&#xff0c;AUC值 Logistic模型是经典的用于分类问题的模型&#xff0c;通常用于判断一件事物的好坏或将其分类。本文着重介绍logistic模型的在二分类上的应用&#xff0c;对于…

logistic回归分类与softmax回归

目录 Logistic回归 逻辑回归的定义式&#xff1a; 损失函数 梯度下降 Logistic回归防止过拟合&#xff1a; Softmax回归&#xff1a; loss函数 逻辑回归与Softmax回归的联系 与神经网络的关系 logistic回归&#xff08;多分类&#xff09;和softmax的关系&#xff1a…

spss-logistic回归

logistic回归的因变量可以是二分类的&#xff0c;也可以是多分类的&#xff0c;但是二分类的更为常用&#xff0c;也更加容易解释&#xff0c;多类可以使用softmax方法进行处理。 Logistic回归分析也用于研究影响关系&#xff0c;即X对于Y的影响情况。Y为定类数据&#xff0c;…

logistic回归——PYTHON实现

logistic回归——PYTHON实现 概述&#xff1a; ​ logistic回归又称logistic回归分析&#xff0c;是一种线性回归模型。logistic回归应用最广泛的是处理二分类问题。比如&#xff0c;探讨引发疾病的危险因素&#xff0c;判断该病人是否患有该病&#xff1b;探讨房价的涨跌&am…