手把手教你强化学习 (三)马尔可夫决策过程与贝尔曼方程

article/2025/7/17 3:49:09

在这里插入图片描述

  马尔可夫决策过程 (Markov Decision Process,MDP)是序贯决策(sequential decision)的数学模型,一般用于具备马尔可夫性的环境中。最早的研究可以追溯到最优控制 (optimal control)问题上,1957年,美国学者Richard Bellman通过离散随机最优控制模型首次提出了离散时间马尔可夫决策过程。最优化控制的离散随机版本:马尔可夫决策过程。1960年和1962年,美国学者Ronald A. HowardDavid Blackwell提出并完善了求解MDP模型的动态规划方法。之后被广泛用于自动控制、推荐系统、强化学习等领域。

  • 参考文献1:Howard, R.A..Dynamic Programming and Markov Processes.Cambridge, Massachusetts:Technology Press-Wiley,1960
  • 参考文献2:Bellman, R.E., 1957. A Markov decision process. Journal of Mathematical Mechanics, 6, pp.679-684.
  • 参考文献3:Blackwell D., 1962. Discrete dynamic programming. Ann Math Stat 33: 719-726.

  在机器学习中是一种用于解决强化学习问题的数学框架。在强化学习中,马尔可夫决策过程是对完全可观测的环境所描述的,即智能体的观测内容完整地包含了决策所需要的所有特征。几乎所有的强化学习控制对象都是需要先建模成马尔可夫决策过程,之后套优化算法做优化。最常见的优化算法就是动态规划 (Dynamic programming) 算法,是一种解决复杂问题非常行之有效的方法。近些年结合深度学习求解的方法大红大紫。

马尔可夫性

  在说马尔可夫决策过程之前,我们需要先了解一下马尔可夫性。那什么样的状态具备马尔可夫性(Markov Property)呢?

  当某一当前状态可知,所有的历史信息都不再需要,即当前时刻的状态仅与前一时刻的状态和动作有关,与其他时刻的状态和动作条件独立,则认为该状态具有马尔可夫性。用状态转移的概率公式描述马尔可夫性表示如下:

P [ S t + 1 ∣ S t ] = P [ S t + 1 ∣ S 1 , … , S t ] \mathbb{P}\left[S_{t+1} | S_{t}\right]=\mathbb{P}\left[S_{t+1} | S_{1}, \ldots, S_{t}\right] P[St+1St]=P[St+1S1,,St]

马尔可夫过程

  马尔可夫过程(Markov Process)又叫马尔可夫链,是一个无记忆的随机过程,可以用一个二元组来表示 ⟨ S , P ⟩ \langle\mathcal{S}, \mathcal{P}\rangle S,P,其中:

  • S \mathcal{S} S表示一个有限状态集合;
  • P \mathcal{P} P表示状态转移概率矩阵,有: P s s ′ = P [ S t + 1 = s ′ ∣ S t = s ] \mathcal{P}_{\mathcal{s}\mathcal{s}^{\prime}}=\mathbb{P}[\mathcal{S}_{t+1}=\mathcal{s}^{\prime}|\mathcal{S}_{t}=\mathcal{s}] Pss=P[St+1=sSt=s]

  我们举个例子来说明理解一下:

  下图中是一个学生学习的示例,圆圈是学生所在的状态,方格表示终止状态,或者描述成自循环的状态。箭头表示状态之间的转移,箭头上的概率表示状态转移的概率。

马尔可夫过程图

  如学生在第一节课的时候,他有 50 % 50\% 50%的概率参加第二节课,同时也有 50 % 50\% 50%的概率去刷Facebook,在刷Facebook的时候有 90 % 90\% 90%的概率继续浏览,有 10 % 10\% 10%的概率回到第一节课上来。依此类推可以知道整个的状态转移情况。其状态转移矩阵 P \mathcal{P} P如下所示

状态转移矩阵

马尔可夫奖励过程

  马尔可夫奖励过程(Markov Reward Process),它在马尔可夫过程的基础之上增加了奖励 R \mathcal{R} R和衰减系数 γ \mathcal{\gamma} γ,可以用一个四元组来表示 ⟨ S , P , R , γ ⟩ \langle\mathcal{S}, \mathcal{P}, \mathcal{R}, \mathcal{\gamma}\rangle S,P,R,γ,其中:

  • S \mathcal{S} S表示一个有限状态集合;
  • P \mathcal{P} P表示状态转移概率矩阵;
  • R \mathcal{R} R是奖励函数,定义为: R s = E [ R t + 1 ∣ S t = s ] \mathcal{R}_{s}=\mathbb{E}[R_{t+1}|\mathcal{S}_{t}=\mathcal{s}] Rs=E[Rt+1St=s],表示在当前时刻 t t t的状态 S t \mathcal{S}_{t} St下,下一个时刻 t + 1 t+1 t+1所能获得的期望奖励
  • γ \mathcal{\gamma} γ是折扣因子(discount factor), γ ∈ [ 0 , 1 ] \mathcal{\gamma} \in [0,1] γ[0,1]

马尔可夫决策过程

  马尔可夫决策过程也被称为受控马尔可夫链(controlled Markov chain)、随机控制问题 (stochastic controlled problem) 、马尔可夫决策规划(Markov decision programming)等。在一个state选择一个action会产生一个reward,并且通过状态转移概率函数决定下一个时刻的state

  environment对于agent的意义在于提供状态转移函数奖励函数。当状态转移函数和奖励函数给定时,环境可以建模成Markov Decision Process。在Markov Decision Processstate会随着time-step发生转移,意思是说状态之间可以相互迁移,迁移的概率由状态转移函数而定。

  如果我们知道的环境的model,或者说这个model是一个白盒model,即各个状态之间的转移概率都已知 (在Markov Decision Process中状态之间的转移有一个动作action ),在强化学习中称已知model的情形叫做model-based的强化学习,反之model未知,叫做model-free的强化学习。

  从马尔可夫奖励过程过渡过来,马尔可夫决策过程(Markov Decision Process),是带有决策的马尔可夫奖励过程,环境所提供的所有状态都具备马尔可夫性。它在马尔可夫奖励过程中添加了决策集合 A \mathcal{A} A,因此MDP可以用一个五元组来表示 ⟨ S , A , P , R , γ ⟩ \langle\mathcal{S}, \mathcal{A},\mathcal{P}, \mathcal{R}, \mathcal{\gamma}\rangle S,A,P,R,γ,其中

  • S \mathcal{S} S表示一个有限状态集合;
  • A \mathcal{A} A表示一个有限的动作集合
  • P \mathcal{P} P表示状态转移概率矩阵, P s s ′ a = P [ S t + 1 = s ′ ∣ S t = s , A t = a ] \mathcal{P}_{\mathcal{ss^{\prime}}}^{\mathbb{a}}=\mathbb{P}[\mathcal{S_{t+1}=\mathcal{s^{\prime}}}|\mathcal{S_{t}=s},\mathcal{A}_{t}=a] Pssa=P[St+1=sSt=s,At=a]
  • R \mathcal{R} R是奖励函数,定义为: R s a = E [ R t + 1 ∣ S t = s , A t = a ] \mathcal{R}_{s}^{a}=\mathbb{E}[R_{t+1}|\mathcal{S}_{t}=\mathcal{s},\mathcal{A}_{t}=a] Rsa=E[Rt+1St=s,At=a],表示在当前时刻 t t t的状态 S t \mathcal{S}_{t} St下,采取动作 A t = a \mathcal{A}_{t}=a At=a之后,下一个时刻 t + 1 t+1 t+1所能获得的期望奖励
  • γ \mathcal{\gamma} γ是折扣因子(discount factor), γ ∈ [ 0 , 1 ] \mathcal{\gamma} \in [0,1] γ[0,1]

  比如在玩游戏的时候,当前所观测的图片的像素,你可以认为它是一个 S \mathcal{S} S集中的一个state(观测实际上是代表部分state);比如下围棋的时候,落子位置可以被看作action space A \mathcal{A} A中的某个actiondiscount factor γ \mathcal{\gamma} γ描述的是未来奖励的一种折扣关系,越远的奖励给当前的影响越小,因此需要一个折扣因子;基于当前stateaction一起决定这个reward应该是多少,一般是一个标量,如果是一个向量的话就变成了一个multi-goal的强化学习。其实在很多场景下面reword只是跟state本身有关,比如围棋游戏中的state,但rewardstateaction这样一个pair有关的场景也是存在的。

  我们以下面的例子来再次说一下什么是马尔可夫决策过程:

MDP

  上图中的红色字表示的是所采取的动作,它与及时奖励相对应。同一个状态下采取不同的action所得到的及时奖励是不一样的,这里面是没有给出状态名称的,因为怕容易混淆了,实际上你选择了Facebook这个动作之后,你的状态就进入了刷Facebook中了。注意看最下面那个小黑点,表示的是那是一个临时状态,在那个状态智能体会按照一定的概率随机转移到另外的一个状态。

MDP-策略

  我们接下来看一下马尔可夫决策过程中的策略 π \mathcal{\pi} π,它是一个概率集合(离散动作空间)或者一个分布(连续动作空间),对某个状态 s \mathcal{s} s采取某个动作 a a a的概率我们可以用公式表示为如下形式:

π ( a ∣ s ) = P [ A t = a ∣ S t = s ] \mathcal{\pi}(a|s)=\mathbb{P}[\mathcal{A_{t}=a|\mathcal{S_{t}}=s}] π(as)=P[At=aSt=s]

  一个策略完整定义了智能体的行为方式,也就是说定义了个体在各个状态下的各种可能的行为方式及其概率的大小。

  MDP中,策略仅与当前状态有关,与历史状态无关;同时某一策略是静态的,与时间无关,但个体可以随着时间更新来更新策略。

A t ∼ π ( ⋅ ∣ S t ) , ∀ t > 0 \mathcal{A_{t}} \sim \mathcal{\pi(\cdot | \mathcal{S_{t}})},\forall_{t} >0 Atπ(St),t>0

MDP-值函数

  在介绍值函数之前,我们需要先了解一下回报(return)或者叫做累计奖励 (cumulative reward):在马尔可夫奖励链上,从时间步 t t t时刻开始,往后所能获得的所有折扣奖励(reward)和我们称之为回报,其中折扣因子 γ \mathcal{\gamma} γ 体现了未来的奖励在当前时刻的价值比例,其数学表达如下所示:

G t = R t + 1 + γ R t + 2 + … = ∑ k = 0 ∞ γ k R t + k + 1 G_{t}=R_{t+1}+\gamma R_{t+2}+\ldots=\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} Gt=Rt+1+γRt+2+=k=0γkRt+k+1

状态价值函数

  状态价值函数(state-value function):表示的是在MDP中,从当前状态 s \mathcal{s} s开始,遵循策略 π \pi π所能获得的期望回报。数学表达如下所示:

v π ( s ) = E π [ G t ∣ S t = s ] \mathcal{v_{\pi}(s)}=\mathbb{E_{\pi}}[G_{t}|\mathcal{S_{t}=s}] vπ(s)=Eπ[GtSt=s]

  这里的策略是静态的,不随状态的改变而改变,而随着智能体的更新而改变。是在某一状态,依据所采取的策略,可能产生具体的行为,而这具体的行为又具有一定概率,策略就是用来描述各个不同状态下描述采取各个不同动作的概率。

动作价值函数

  动作价值函数(action-value function):表示依据策略 π \pi π时,在给定状态 s \mathcal{s} s下,采取某一具体的行为 a a a,所能获得的期望回报

q π ( s , a ) = E π [ G t ∣ S t = s ∣ A t = a ] \mathcal{q_{\pi}(s,a)}=\mathbb{E_{\pi}}[G_{t}|\mathcal{S_{t}=s}|\mathcal{A_{t}=a}] qπ(s,a)=Eπ[GtSt=sAt=a]

MDP-贝尔曼期望方程

  上面只是求出了状态价值函数和动作价值函数,我们怎么来求出最优的值函数呢?

  贝尔曼期望方程(Bellman Expectation Equation)是马尔可夫决策过程中一个非常重要的知识点。

  我们可以用下一时刻的状态值函数及时奖励来描述当前时刻的状态值函数,其推导过程如下所示:

v ( s ) = E [ G t ∣ S t = s ] = E [ R t + 1 + γ R t + 2 + γ 2 R t + 3 + … ∣ S t = s ] = E [ R t + 1 + γ ( R t + 2 + γ R t + 3 + … ) ∣ S t = s ] = E [ R t + 1 + γ G t + 1 ∣ S t = s ] = E [ R t + 1 + γ v ( S t + 1 ) ∣ S t = s ] \begin{aligned} v(s) &=\mathbb{E}\left[G_{t} | S_{t}=s\right] \\ &=\mathbb{E}\left[R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\ldots | S_{t}=s\right] \\ &=\mathbb{E}\left[R_{t+1}+\gamma\left(R_{t+2}+\gamma R_{t+3}+\ldots\right) | S_{t}=s\right] \\ &=\mathbb{E}\left[R_{t+1}+\gamma G_{t+1} | S_{t}=s\right] \\ &=\mathbb{E}\left[R_{t+1}+\gamma v\left(S_{t+1}\right) | S_{t}=s\right] \end{aligned} v(s)=E[GtSt=s]=E[Rt+1+γRt+2+γ2Rt+3+St=s]=E[Rt+1+γ(Rt+2+γRt+3+)St=s]=E[Rt+1+γGt+1St=s]=E[Rt+1+γv(St+1)St=s]

  可得到状态值函数的贝尔曼期望方程的最终结果:

v π ( s ) = E π [ R t + 1 + γ v π ( S t + 1 ) ∣ S t = s ] v_{\pi}(s)=\mathbb{E_{\pi}}[R_{t+1}+\gamma v_{\pi}(\mathcal{S_{t+1}})|\mathcal{S_{t}=s}] vπ(s)=Eπ[Rt+1+γvπ(St+1)St=s]

  同理我们可以得到动作值函数的贝尔曼期望方程:

q π ( s , a ) = E π [ R t + 1 + γ q π ( S t + 1 , A t + 1 ) ∣ S t = s , A t = a ] q_{\pi}(s,a)=\mathbb{E}_{\pi}[R_{t+1}+\gamma q_{\pi}(\mathcal{S_{t+1},\mathcal{A}_{t+1}})|\mathcal{S_{t}=s,\mathcal{A}_{t}=a}] qπ(s,a)=Eπ[Rt+1+γqπ(St+1,At+1)St=s,At=a]

  这里可能会对这个期望函数有点难理解,我们把它拆开来理解一下。

MDP-贝尔曼期望方程求V、Q

s \mathcal{s} s- a a a v v v

  状态价值函数和动作价值函数的关系如下图所示:

在这里插入图片描述
  图中空心圆圈表示状态,黑色的实心圆圈表示动作本身,连接状态的线条把该状态下能够采取的动作关联起来。数学公式描述如下:

v π ( s ) = ∑ a ∈ A π ( a ∣ s ) q π ( s , a ) v_{\pi}(s)=\sum_{a \in \mathcal{A}}\pi(a|s)q_{\pi}(s,a) vπ(s)=aAπ(as)qπ(s,a)

  可以看出,在遵循策略时,状态的价值体系为:在该状态下,遵循某一策略,而采取所有可能动作的价值(动作值函数 q π ( s , a ) q_{\pi}(s,a) qπ(s,a)),按动作发生概率 π ( a ∣ s ) \pi(a|s) π(as)的乘积求和。

a a a- s ′ \mathcal{s^{\prime}} s q q q

  类似的,一个动作价值函数也可以表示成状态价值函数的形式:

在这里插入图片描述

  它表示:某一个状态下采取某一个动作的价值可以分为两部分:离开这个状态的及时奖励 r r r,和进入新的状态 s ′ s^{\prime} s的概率与新的状态价值 v π ( s ′ ) v_{\pi}(s^{\prime}) vπ(s)的乘积。数学形式如下所示:

q π ( s , a ) = R s a + γ ∑ s ′ ∈ S P s s ′ a v π ( s ′ ) q_{\pi}(s,a)=\mathcal{R}_{s}^{a}+\gamma \sum_{s^{\prime}\in \mathcal{S}}\mathcal{P}_{ss^{\prime}}^{a}v_{\pi}(s^{\prime}) qπ(s,a)=Rsa+γsSPssavπ(s)

s \mathcal{s} s- a a a- s ′ \mathcal{s}^{\prime} s求取 v v v

  所谓的状态值函数求状态值函数的方法就是:通过下一个时刻的状态值函数 v ( s ′ ) v(s^{\prime}) v(s),求取当前状态的状态值函数 v ( s ) v(s) v(s)

在这里插入图片描述

  可以看到,上图是动作值函数求状态值函数(上半部分),和状态值函数求动作值函数(下半部分)组合而得到的。其数学表达如下所示:

v π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R s a + γ ∑ s ′ ∈ S P s s ′ a v π ( s ′ ) ) v_{\pi}(s)=\sum_{a \in \mathcal{A}} \pi(a | s)\left(\mathcal{R}_{s}^{a}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v_{\pi}\left(s^{\prime}\right)\right) vπ(s)=aAπ(as)(Rsa+γsSPssavπ(s))

a a a- s ′ s^{\prime} s- a ′ a^{\prime} a求取 q q q

  所谓的动作值函数求动作值函数的方法就是:通过下一个时刻的状态下采取的动作值函数 q π ( s ′ , a ′ ) q_{\pi}\left(s^{\prime}, a^{\prime}\right) qπ(s,a),求取当前状态下的动作值函数 q π ( s , a ) q_{\pi}(s, a) qπ(s,a)

在这里插入图片描述

  类似的可以得到如下数学表达式:

q π ( s , a ) = R s a + γ ∑ s ′ ∈ S P s s ′ a ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) q π ( s ′ , a ′ ) q_{\pi}(s, a)=\mathcal{R}_{s}^{a}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} \sum_{a^{\prime} \in \mathcal{A}} \pi\left(a^{\prime} | s^{\prime}\right) q_{\pi}\left(s^{\prime}, a^{\prime}\right) qπ(s,a)=Rsa+γsSPssaaAπ(as)qπ(s,a)

MDP-最优值函数

最优状态价值函数

  最优状态价值函数指的是在从所有策略中产生的状态价值函数中,寻找到一个能使得状态 s s s获得最大价值的策略所对应的那个值函数,数学表达形式如下所示:

v ∗ ( s ) = max ⁡ π v π ( s ) v_{*}(s)=\max_{\pi} v_{\pi}(s) v(s)=πmaxvπ(s)

最优动作值函数

  类似的,最优动作值函数,指从所有策略中选择一个能使得行为值函数最大的那一个策略所对应的动作值函数,数学表达形式如下所示:

q ∗ ( s , a ) = max ⁡ π q π ( s , a ) q_{*}(s,a)=\max_{\pi}q_{\pi}(s,a) q(s,a)=πmaxqπ(s,a)

  最优值函数描述了MDP过程中最优的表现,当我们知道了最优值函数,MDP问题也就被求解出来了

MDP-最优策略

  在强化学习过程中最优策略,就是强化学习问题的解。一般很难找到最优策略,但是我们通过比较各个策略的好坏,可以得到一个较好的策略(局部最优解)。

  • 什么是最优策略?

  当对于任何状态 s s s,遵循策略 π \pi π的价值不小于遵循策略 π ′ \pi^{\prime} π下的价值,则策略 π \pi π优于策略 π ′ \pi^{\prime} π

定理

  这里对所有的MDP问题有一个定理:

  1. 存在一个最优策略 π ∗ \pi_{*} π,它比其他策略都好,或者相等,数学表示为: π ∗ ≥ π , ∀ π \pi_{*} \geq \pi, \forall \pi ππ,π
  2. 所有的最优策略有相同的最优值函数。 v π ∗ ( s ) = v ∗ ( s ) v_{\pi_{*}}(s)=v_{*}(s) vπ(s)=v(s)
  3. 所有最优策略具有相同的动作价值函数。 q π ∗ ( s , a ) = q ∗ ( s , a ) q_{\pi_{*}}(s,a)=q_{*}(s,a) qπ(s,a)=q(s,a)
  • 如何寻找最优策略?

  大体思路是:通过最大化最优动作值函数来找到最优策略。

  通过选取最大化动作值函数找到最优策略。数学表达如下所示:

π ∗ ( a ∣ s ) = { 1 if  a = argmax ⁡ a ∈ A q ∗ ( s , a ) 0 otherwise  \pi_{*}(a | s)=\left\{\begin{array}{ll} {1} & {\text { if } a=\underset{a \in \mathcal{A}}{\operatorname{argmax}}\ \ q_{*}(s, a)} \\ {0} & {\text { otherwise }} \end{array}\right. π(as)={10 if a=aAargmax  q(s,a) otherwise 

  所以对于MDP来说这里肯定是存在一个最优策略的。如果我们知道了最优动作值函数 q ∗ ( s , a ) q_{*}(s,a) q(s,a),我们就相当于知道了最优策略。

MDP-贝尔曼最优方程求 V ∗ V_{*} V Q ∗ Q^{*} Q

s \mathcal{s} s- a a a v ∗ v_{*} v

在这里插入图片描述

  其数学表达式如下所示:

v ∗ ( s ) = max ⁡ a q ∗ ( s , a ) v_{*}(s)=\max _{a} q_{*}(s, a) v(s)=amaxq(s,a)

a a a- s ′ \mathcal{s^{\prime}} s q ∗ q_{*} q

在这里插入图片描述

  其数学表达式如下所示:

q ∗ ( s , a ) = R s a + γ ∑ s ′ ∈ S P s s ′ a v ∗ ( s ′ ) q_{*}(s, a)=\mathcal{R}_{s}^{a}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v_{*}\left(s^{\prime}\right) q(s,a)=Rsa+γsSPssav(s)

s \mathcal{s} s- a a a- s ′ \mathcal{s}^{\prime} s求取 v ∗ v_{*} v

在这里插入图片描述

  其数学表达式如下所示:

v ∗ ( s ) = max ⁡ a R s a + γ ∑ s ′ ∈ S P s s ′ a v ∗ ( s ′ ) v_{*}(s)=\max _{a} \mathcal{R}_{s}^{a}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v_{*}\left(s^{\prime}\right) v(s)=amaxRsa+γsSPssav(s)

a a a- s ′ s^{\prime} s- a ′ a^{\prime} a求取 q ∗ q_{*} q

在这里插入图片描述

  其数学表达式如下所示:

q ∗ ( s , a ) = R s a + γ ∑ s ′ ∈ S P s s ′ a max ⁡ a ′ q ∗ ( s ′ , a ′ ) q_{*}(s, a)=\mathcal{R}_{s}^{a}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} \max _{a^{\prime}} q_{*}\left(s^{\prime}, a^{\prime}\right) q(s,a)=Rsa+γsSPssaamaxq(s,a)

  贝尔曼方程的求解一般通过迭代算法进行,比如策略迭代、值迭代、Q-Learning等。

我的微信公众号名称:深度学习与先进智能决策
微信公众号ID:MultiAgent1024
公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!


http://chatgpt.dhexx.cn/article/cJSs0Qo6.shtml

相关文章

数学建模,8月学习感想

数学建模概览 Matlab入门常用的操作指令数据类型 建模流程分析问题建立模型&求解模型数据建模技术优化技术连续模型求解评价模型求解机理建模方法 撰写论文前情提示正文部分配套说明排版工具 写在最后 长文预警!!! Matlab入门 Matlab可谓…

「从零入门数据分析」01_ 数据分析概述

作者 | gongyouliu 编辑 | auroral-L 本篇文章共8628字,预计阅读时间35分钟。 大家好,我是强哥。一个热爱暴走、读书、写作的人! 本章目录 一、数据分析的发展简史 二、数据分析的应用场景 三、常用的数据分析工具与技术 四、数据分析的思维…

数学建模心得分享(校赛)——2021.6.7

一、个人感受 总结为:找队友->讲方法->找知识->善讨论->勤实践 基础能力(个人见解): 第一次比赛完,还有这刚刚实习完的余温,工作中的思维的惯性还时刻在影响着我,身边的人几乎都为了自己的生活而奋斗。有幸…

matlab在管理学中的应用简述【一】

1、问题研究与描述 1.1 问题与模型 (1)问题 问题与人们的日常生活和工作有着密切的联系,人们每天都要面对各种各样的问题需要处理和解决。 如:资源配置问题,救灾抢险问题,时间安排问题,生产组…

大数据和人工智能属于什么专业 - 学大数据和人工智能出来做什么

人工智能专业主要从事什么工作? 1、算法工程师。进行人工智能相关前沿算法的研究,包括机器学习、知识应用、智能决策等技术的应用。以机器学习的过程为例,涉及到数据收集、数据整理、算法设计、算法训练、算法验证、算法应用等步骤&#xff0…

方差分析 anova一般指方差分析

方差分析(Analysis of Variance,简称ANOVA),又称“ 变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上 样本均数差别的 显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对…

继续无题

企业分为:决策层、管理层、执行层。 所以企业也会有:决策软件、管理软件、执行软件。 (1) 啥叫分析?分析就是根据现状,思考原因,这就是典型的归因:从现在往过去捋,这就叫…

数学建模经验分享及比赛时间汇总

一、浅谈数学建模1.1 什么是数学建模 先来看看官方的解释:数学建模是运用数学的语言和方法,通过抽象,简化建立能近似刻画“解决”实际问题的一种强有力的数学手段。数学建模就是用数学语言描述实际现象的过程。这里的实际现象既包涵具体的自然…

数模论文写作入门——正文篇

提示:数模论文写作入门还有“首页篇”和“排版篇”,可查看专栏补充。 目录 前言 一、问题重述 1、改词降重 水论文方法 2、 查阅相关背景资料 引用高大上 二、问题分析 三、模型假设 1.题目中明确给出假设条件 2.排除生活中小概率时间&#xff08…

SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类...

https://www.zhihu.com/topic/19582125/top-answershttps://wenku.baidu.com/search?wordspss&ieutf-8&lm0&od0 SPSS 18.0由17个功能模组组成: Base System 基础程式 Advanced Models 高等统计模组(GEE/GLM/存活分析) Regression Models 进阶回归模组 …

数学建模论文写作

声明:本文为本人在b站学习清风数学建模的学习笔记 数学建模清风——论文写作方法教程(国赛和美赛) 文章目录 论文写作方法国赛摘要摘要的开头段摘要的中间段摘要的结尾段摘要中常见的废话完整摘要参考关键词 (正文部分&#xff09…

机器学习中的 Shapley 值怎么理解?

导语:在集体合作中,如何公平分配奖励? 图片来源:https://unsplash.com/photos/TL5Vy1IM-uA 我第一次听说 Shapley 值是在学习模型可解释性的时候。我知道了 SHAP,它是一个框架,可以更好地理解为什么机器学…

做数据分析如何从囚徒困境到合作的进化

小飞象交流会 即使拿到一手烂牌,也要打出一串王炸。这是场无限游戏,努力成为牌桌上最后一名玩家。 内部交流│7期 做数据分析如何 从囚徒困境到合作的进化 data analysis ●●●● 分享人:周海鹏 ‍ ‍‍ 在推进业务线各种项目的过程中&#…

博弈论学习(二)——完全信息静态博弈

这一篇主要介绍非合作博弈中,完全信息静态博弈的相关知识。 切记非合作博弈的条件:参与人具有足够智力且极端个人主义,即以自己的效用作为唯一的衡量标准。 要理解完全信息静态博弈,首先要了解以下2个概念: 完全信息…

Nabla算子

Nabla算子的定义: 梯度: 散度: 旋度:

Marr-Hildreth边缘检测器

用于边缘检测的算子应该有两个显著的特点: 1.它应该能够计算图中每一个点处的一阶导数或者二阶导数的数字近似的微分算子。 2.它能够被“调整”以便在任何期望的尺寸上其作用。因此,大的算子也可以用于检测模糊边缘,小的算子可以用来检测锐度…

5-3-BP神经网络

文章目录 引入名词BP神经网络NaN独热码Nabla算子 1神经网络1.1 神经元模型1.2 神经元激活函数1.2.1 为什么要使用激活函数?1.2.2为什么激活函数需要非线性函数?1.2.3常用的激活函数sigmoid 激活函数tanh激活函数Relu激活函数 1.3 神经网络结构 2.损失函数…

图像梯度——Sobel算子和Laplacian算子

一、Sobel算子 1、定义 Sobel算子是一种离散的微分算子,结合了高斯平滑和微分求导运算,利用局部拆分寻找边缘,计算所得的是一个梯度的近似值。 Sobel算子|左-右|/|下-上| Scharr算子|左-右|/|下-上| 2、原理 滤波器指由一幅图根据像素点&…

sobel算子 拉普拉斯算子以及散度与梯度的概念

在ECBSR论文的代码研究中,我发现关于ECBSR提出的多分支重参数化模型中,代码用到了sobel算子与laplace算子,很难判断这两个算子是为了论文的创新点还是真的有用,这块只能等待后续的对比实验。 1、拉普拉斯算子 首先是散度与梯度的…

Python OpenCV Sobel 算子、Scharr 算子、laplacian 算子 复盘学习

Python OpenCV 365 天学习计划,与橡皮擦一起进入图像领域吧。本篇博客是这个系列的第 46 篇。 该系列文章导航参考:https://blog.csdn.net/hihell/category_10688961.html Python OpenCV 基础知识铺垫Sobel 算子Scharr 算子laplacian 算子 橡皮擦的小节 …