凸优化学习(二)——凸集

article/2025/9/12 2:41:37

注意,本文内容来自于吴恩达老师cs229课堂笔记的中文翻译项目:https://github.com/Kivy-CN/Stanford-CS-229-CN 中的凸优化部分的内容进行翻译学习。

2. 凸集

我们从凸集的概念开始研究凸优化问题。

定义2.1 我们定义一个集合是凸的,当且仅当任意 x , y ∈ C x,y\in C x,yC θ ∈ R , 0 ≤ θ ≤ 1 \theta\in R, 0\le\theta\le 1 θR,0θ1,

θ x + ( 1 − θ ) y ∈ C \theta x + (1-\theta)y\in C θx+(1θ)yC

实际上,这意味着如果我们在集合 C C C中取任意两个元素,在这两个元素之间画一条直线,那么这条直线上的每一点都属于 C C C。图 1 1 1显示了一个示例的一个凸和一个非凸集。其中点 θ x + ( 1 − θ ) y \theta x +(1-\theta) y θx+(1θ)y被称作点集 x , y x,y x,y凸性组合(convex combination)。

2.1 凸集的实例
  • 全集 R n R^n Rn 是一个凸集 (译者注:即 n n n维向量空间或线性空间中所有元素组成的集合)。 因为以下结论显而易见:任意 x , y ∈ R n x,y\in R^n x,yRn,则 θ x + ( 1 − θ ) y ∈ R n \theta x +(1-\theta) y\in R^n θx+(1θ)yRn(译者注: n n n维向量空间对加法和数乘封闭,显然其线性组合也封闭)

  • 非负的象限 R + n R^n_+ R+n组成的集合 是一个凸集。 R n R^n Rn中所有非负的元素组成非负象限: R + n = { x : x i ≥ 0 ∀ i = 1 , … , n } R^n_+=\{x:x_i\ge 0\quad\forall i=1,\dots,n \} R+n={x:xi0i=1,,n}。为了证明 R + n R^n_+ R+n是一个凸集,只要给定任意 x , y ∈ R + n x,y\in R^n_+ x,yR+n,并且 0 ≤ θ ≤ 1 0\le\theta\le 1 0θ1

( θ x + ( 1 − θ ) y ) i = θ x i + ( 1 − θ ) y i ≥ 0 ∀ i (\theta x +(1-\theta) y)_i = \theta x_i + (1 - \theta)y_i\ge 0\quad\forall i (θx+(1θ)y)i=θxi+(1θ)yi0i

  • 范数球是一个凸集。设 ∥ ⋅ ∥ \parallel\cdot\parallel R n R^n Rn中的一个范数(例如,欧几里得范数,即二范数 ∥ x ∥ 2 = ∑ i = 1 n x i 2 \parallel x\parallel_2=\sqrt{\sum_{i=1}^nx_i^2} x2=i=1nxi2 )。则集合 { x : ∥ x ∥ ≤ 1 } \{x:\parallel x\parallel\le 1\} {x:x1}是一个凸集。为了证明这个结论,假设 x , y ∈ R n x,y\in R^n x,yRn,其中 ∥ x ∥ ≤ 1 , ∥ y ∥ ≤ 1 , 0 ≤ θ ≤ 1 \parallel x\parallel\le 1,\parallel y\parallel\le 1,0\le\theta\le 1 x1,y1,0θ1,则:

∥ θ x + ( 1 − θ ) y ∥ ≤ ∥ θ x ∥ + ∥ ( 1 − θ ) y ∥ = θ ∥ x ∥ + ( 1 − θ ) ∥ y ∥ ≤ 1 \parallel \theta x +(1-\theta) y\parallel\le \parallel\theta x\parallel+\parallel(1-\theta) y\parallel = \theta\parallel x\parallel+(1-\theta)\parallel y\parallel\le 1 θx+(1θ)yθx+(1θ)y=θx+(1θ)y1

我们用了三角不等式和范数的正同质性(positive homogeneity)。

  • 仿射子空间和多面体 是一个凸集。给定一个矩阵 A ∈ R m × n A\in R^{m\times n} ARm×n和一个向量 b ∈ R m b\in R^m bRm,一个仿射子空间可以表示成一个集合 { x ∈ R n : A x = b } \{x\in R^n:Ax=b\} {xRn:Ax=b}(注意如果 b b b无法通过 A A A列向量的线性组合得到时,结果可能是空集)。类似的,一个多面体(同样,也可能是空集)是这样一个集合 { x ∈ R n : A x ⪯ b } \{x\in R^n:Ax\preceq b\} {xRn:Axb},其中‘ ⪯ \preceq ’代表分量不等式(componentwise inequality)(也就是, A x Ax Ax得到的向量中的所有元素都小于等于 b b b向量对应位置的元素) 1 ^1 1。为了证明仿射子空间和多面体是凸集,首先考虑 x , y ∈ R n x,y\in R^n x,yRn,这样可得 A x = A y = b Ax=Ay=b Ax=Ay=b。则对于 0 ≤ θ ≤ 1 0\le\theta\le 1 0θ1,有:

1 类似的,对于两个向量 x , y ∈ R n x,y\in R^n x,yRn x ⪰ y x\succeq y xy代表,向量 x x x中的每一个元素都大于等于向量 y y y对应位置的元素。注意有时候文中使用符号‘ ≤ \le ’和‘ ≥ \ge ’代替了符号‘ ⪯ \preceq ’和‘ ⪰ \succeq ’,则符号的实际意义必须根据上下文来确定(也就是如果等式两边都是向量的时候,文中使用的是常规的不等号‘ ≤ \le ’和‘ ≥ \ge ’,则我们自己心中要知道用后两个符号‘ ⪯ \preceq ’和‘ ⪰ \succeq ’的意义代替之)

A ( θ x + ( 1 − θ ) y ) = θ A x + ( 1 − θ ) A y = θ b + ( 1 − θ ) b = b A(\theta x +(1-\theta) y) = \theta Ax + (1-\theta)Ay=\theta b + (1-\theta)b=b A(θx+(1θ)y)=θAx+(1θ)Ay=θb+(1θ)b=b

类似的,对于 x , y ∈ R n x,y\in R^n x,yRn,满足 A x ≤ b Ax\le b Axb以及 A y ≤ b , 0 ≤ θ ≤ 1 Ay\le b,0\le\theta\le 1 Ayb,0θ1,则:

A ( θ x + ( 1 − θ ) y ) = θ A x + ( 1 − θ ) A y ≤ θ b + ( 1 − θ ) b = b A(\theta x +(1-\theta) y) = \theta Ax + (1-\theta)Ay\le\theta b + (1-\theta)b=b A(θx+(1θ)y)=θAx+(1θ)Ayθb+(1θ)b=b

  • 凸集之间的交集还是凸集。假设 C 1 , C 2 , … , C k C_1,C_2,\dots,C_k C1,C2,,Ck都是凸集,则它们的交集:

⋂ i = 1 k C i = { x : x ∈ C i ∀ i = 1 , … , k } \bigcap_{i=1}^kC_i=\{x:x\in C_i\quad\forall i=1,\dots,k\} i=1kCi={x:xCii=1,,k}

同样也是凸集。为了证明这个结论,考虑 x , y ∈ ⋂ i = 1 k C i x,y\in \bigcap_{i=1}^k C_i x,yi=1kCi以及 0 ≤ θ ≤ 1 0\le\theta\le 1 0θ1,则:

θ x + ( 1 − θ ) y ∈ C i ∀ i = 1 , ⋯   , k \theta x +(1-\theta) y\in C_i\quad\forall i=1,\cdots,k θx+(1θ)yCii=1,,k

因此,根据凸集的定义可得:

θ x + ( 1 − θ ) y ∈ ⋂ i = 1 k C i \theta x +(1-\theta) y\in\bigcap_{i=1}^kC_i θx+(1θ)yi=1kCi

然而要注意在通常情况下,凸集之间的并集并不是一个凸集。

  • 半正定矩阵是一个凸集。所有对称正半定矩阵的集合,常称为正半定锥,记作 S + n S^n_+ S+n,其是一个凸集(通常情况下, S n ⊂ R n × n S^n\subset R^{n\times n} SnRn×n代表 n × n n\times n n×n对称矩阵的集合)。回忆一个概念,我们说一个矩阵 A ∈ R n × n A\in R^{n\times n} ARn×n是对称半正定矩阵,当且仅当该矩阵满足 A = A T A=A^T A=AT,并且给定任意一个 n n n维向量 x ∈ R n x\in R^n xRn,满足 x T A x ≥ 0 x^TAx\ge 0 xTAx0。现在考虑两个对称半正定矩阵 A , B ∈ S + n A,B\in S^n_+ A,BS+n,并且有 0 ≤ θ ≤ 1 0\le\theta\le 1 0θ1。给定任意 n n n维向量 x ∈ R n x\in R^n xRn,则:

x T ( θ A + ( 1 − θ ) B ) x = θ x T A x + ( 1 − θ ) x T B x ≥ 0 x^T(\theta A +(1-\theta) B)x=\theta x^TAx+(1-\theta)x^TBx\ge 0 xT(θA+(1θ)B)x=θxTAx+(1θ)xTBx0

同样的逻辑可以用来证明所有正定、负定和负半定矩阵的集合也是凸集。

下一篇:凸优化学习(三)——凸函数


http://chatgpt.dhexx.cn/article/8y2OPEt4.shtml

相关文章

凸优化第一【凸集与凸优化简介】

【本文仅供学习记录,概无其他用处,一些图片资源来自网络,侵删】 凸优化是一个简单的优化问题,优化-数学规划概念相同,本课程主要学习的内容包括:凸集、凸函数、凸优化和有关凸优化的一些算法。 优化&…

凸优化笔记(一):仿射集,凸集与锥

一.直线和线段 设为空间中的两个点。 直线: 线段: 二.仿射集(Affine Set)凸集(Convex Set)和锥(Cones) 仿射集 仿射集:通过集合中任意两个不同点的直线仍然在集合C中…

【机器学习】凸集、凸函数、凸优化、凸优化问题、非凸优化问题概念详解

目录 1 基本概念2 凸优化问题3 非凸优化问题4 总结 1 基本概念 (1)凸集和非凸集 凸集是一个点集, 这个点集有一个性质, 就是在这个集合中任取不同的两个点x和y, 他们之间的线段(包括端点)上的点…

凸优化学习(一)凸集与凸函数、凸优化问题

4.1 凸集 convex sets 仿射集(Affine Sets):如果一个集合 C ∈ R n C\in\mathbb{R}^n C∈Rn 是仿射的,则在C中两点的直线也在C中,若 x 1 ∈ C , x 2 ∈ C , 则 x θ x 1 ( 1 − θ ) x 2 ∈ C , θ ∈ R x_1\in C,x…

【凸优化笔记二】凸函数基本性质和例子

【凸优化笔记二】凸函数基本性质和例子 凸函数的四个定义定义一定义二定义三定义四 一些栗子 凸函数的四个定义 定义一 其中 dom f f f 是函数 f f f 的 定义域(前域),为凸集——这个很重要,后面的一些定义中也会用到&#xff…

凸函数

凸函数有一个很好的性质,即只要能证明我们求解的问题是凸函数,最终得到的解一定是全局最优解 首先得注意一下: 中国大陆数学界某些机构关于函数凹凸性定义和国外的定义是相反的。Convex Function在中国大陆某些的数学书中,比如说…

最优化理论基础与方法学习笔记——凸集与凸函数以及手写定理证明

文章目录 凸集的定义凸集的几何意义有关凸集的定理 定理1.4.2内点、边界点和闭包的定义定义1.4.3 超平面的定义定理1.4.3 投影定理定理1.4.4 点与凸集的分离定理定理1.4.5 支撑超平面定理定义1.4.4 凸函数的定义定义1.4.5 水平集定理1.4.6 凸函数的水平集还是凸集定理1.4.7 函数…

凸优化 - 2 - 凸集和凸函数

本总结是是个人为防止遗忘而作,不得转载和商用。 前提说明:为了方便查阅,我将整个凸优化的内容分成了很多部分,因为后面的部分用到了前面的知识,所以,如果你的目的是查看后面的内容但对前面的某个知识点不甚…

凸和非凸的理解

目录 一句话概括一、凸和非凸的区别二、凸函数和非凸函数三、凸优化和非凸优化凸优化:常见的凸优化方法:凸优化的一般求解过程非凸优化: 一句话概括 凸(Convex):在该区间函数图象上的任意两点所连成的线段…

凸集与非凸集,凸函数与凹函数,凸优化

关于凸集与非凸集,凸函数与凹函数,凸优化的概念一直混淆,在此整理下相关定义和概念,希望给有需要的人。 凸集:集合中的任意两点连线的点都在该集合中,则称该集合为凸集;凹集为非凸集。 函数的…

最优化——凸集

引言 这是中科大最优化理论的笔记,中科大凌青老师的凸优化课程,详尽易懂,基础扎实。不论是初学者还是从业多年的人,都值得系统地好好学一遍。 本文介绍什么是凸集、凸包与凸锥包。 仿射集 我们先来看最简单的凸集——仿射集(A…

凸集

本文参考自清华大学研究生公共课教材——数学系列《最优化理论与算法》(第二版) 一:凸集 定义:设S为n维欧式空间中中的一个集合,若对S中任意两点,联结它们的线段仍属于S,称这样的集合S是一个凸…

凸集(Convex sets)

凸集(Convex sets) 1.仿射集和凸集 仿射集(Affine set): 定义:如果通过C中任意两个不同点的线位于C中,则集合C⊆Rn就是仿射 其中, 凸集(Convex set): 定义:如果C中的任意两点之间的…

【深度学习】logistic回归模型

目录 神经网络 数据、符号准备: logistic回归: 损失函数和代价函数: 梯度下降法: 向量化: 神经网络 我们学习深度学习的目的就是用于去训练神经网络,而神经网络是什么呢?我们先来看下面一…

十分钟理解logistic回归原理

关于逻辑回归的分类算法,很多书籍都有介绍,比较来看,还是**李航老师的书《统计学习方法》**里介绍的更清楚,若大家有时间,请不要偷懒,还是建议从头开始看李航老师的书,这本书简洁明了&#xff0…

python数据挖掘学习笔记——logistic逻辑回归实现

Logistic逻辑回归分析 logistic模型的基本介绍python中实现logistic回归模型的评价混淆矩阵ROC曲线,AUC值 Logistic模型是经典的用于分类问题的模型,通常用于判断一件事物的好坏或将其分类。本文着重介绍logistic模型的在二分类上的应用,对于…

logistic回归分类与softmax回归

目录 Logistic回归 逻辑回归的定义式: 损失函数 梯度下降 Logistic回归防止过拟合: Softmax回归: loss函数 逻辑回归与Softmax回归的联系 与神经网络的关系 logistic回归(多分类)和softmax的关系&#xff1a…

spss-logistic回归

logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多类可以使用softmax方法进行处理。 Logistic回归分析也用于研究影响关系,即X对于Y的影响情况。Y为定类数据,…

logistic回归——PYTHON实现

logistic回归——PYTHON实现 概述: ​ logistic回归又称logistic回归分析,是一种线性回归模型。logistic回归应用最广泛的是处理二分类问题。比如,探讨引发疾病的危险因素,判断该病人是否患有该病;探讨房价的涨跌&am…

二项logistic回归案例分析(附操作数据)

当因变量数据类型为分类变量时,线性回归不再适用,应当做logistic回归。根据因变量分类水平的不同,具体包括二项logistic回归、多项logistic回归和有序logistic回归。 1.案例背景与分析策略 1.1 案例背景介绍 现收集到银行贷款客户的个人、…