基于神经网络的自适应最优控制

article/2025/10/4 13:59:36

${\it《Neural\,network\,approach\,to\,continuous-time\,direct\,adaptive\,optimal\,control\,for\,partially\,unknown\,nonlinear\,systems 》}\\ \qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad Draguna\,Vrabie*,Frank\,Lewis$

非线性最优控制问题：

$1.\,$ 最优控制问题描述:

系统动态方程：

$\dot{x}=f(x)+g(x(t))u(x(t)) ;\quad x(0)=x_0 \quad(1)$

假设条件： $f (x) + g (x) u$ 在包含原点的集合 $\Omega$ 上 $L i p s c h i t z$ 连续，且系统是可稳的。

定义无限时域积分型性能指标：

$V^u(x(t))=\int_t^\infty r(x(\tau),u(\tau))d\tau,\quad r(x,u)=Q(x)+u^TRu \quad(2)$

Q(x)为正定函数，R为正定矩阵。

定义允许控制 $\mu\in\Psi(\Omega)$ ，满足 $\mu(x)$ 在 $\Omega$ 上连续， $\mu(0)=0$ ， $\mu(x)$ 能使系统稳定，同时 $\forall x_0\in \Omega$ ， $V(x_0)$ 有限。

对于任意的 $\mu\in\Psi(\Omega)$ ，其对应的性能指标函数 $V^\mu(x(t))=\int_t^\infty r(x(\tau),u(\tau))d\tau\quad(3)$ ，易知

$V^\mu(x)$ 一阶导函数连续，即 $V^\mu(x)\in C^1$ ，故式 $(3)$ 微分形式：

$0=r(x,\mu(x))+(\nabla V_x^\mu)^T(f(x)+g(x)\mu(x)), \quad V^\mu(0)=0 \quad(4)$

$\textsf{{最优控制问题}}:$

$\small{给定连续时间系统（1）、允许控制集合\mu(x)、无限时域性能指标V^\mu（2），找到最优控制律\mu^*使得式（2）最小}$ 。

$2.\,$ 策略迭代算法(policy iteration):

$1.策略评估(policy\,evaluation)$

$V^{\mu^{(i)}}(x(t))=\int_t^{t+T}r(x(\tau),\mu^{(i)}(x(\tau)))d\tau+V^{\mu^{(i)}}(x(t+T)), \, V^{\mu^{(i)}}(0)=0 \quad (9)$

$2.策略改进(policy\,improvement)$

$\mu^{(i+1)}(x)=-\frac12R^{-1}g^T(x)\nabla V_x^{\mu^{(i)}} \quad(11)$
$\,$
$Lemma\,1.\;式(9)求解V^{\mu^{(i)}}等价于求解\,0=r(x,\mu^{(i)}(x))+(\nabla V_x^{\mu^{(i)}})^T(f(x)+g(x)\mu^{(i)}(x)), \quad V^{\mu^{(i)}}(0)=0 \quad(12)$

$3.\,$ 基于神经网络近似指标函数：

$V^{\mu^{(i)}}(x)=\sum_{j=1}^Lw_j^{\mu^{(i)}}\phi_j(x)=(\omega_L^{\mu^{(i)}})^T\varphi(x) \quad (14)$

带入式（9）有：

$(\omega_L^{\mu^{(i)}})^T\varphi(x(t))=\int_t^{t+T}r(x(\tau),\mu^{(i)}(x(\tau)))d\tau+(\omega_L^{\mu^{(i)}})^T\varphi(x(t+T)) \quad (16)$

残差为：

$\delta_L^{\mu^{(i)}}(x(t),T)=\int_t^{t+T} r(x,\mu^{(i)}(x))d\tau+(\omega_L^{\mu^{(i)}})^T[\varphi_L(x(t+T))-\varphi_L(x(t))] \quad(17)$

使用最小二乘法，最小化 $S=\int_\Omega\delta_L^{\mu^{(i)}}(x,T)\delta_L^{\mu^{(i)}}(x,T)dx \quad(18)$

即 $\int_\Omega\frac{\delta_L^{\mu^{(i)}}(x,T)}{d\omega_L^{\mu^{(i)}}}\delta_L^{\mu^{(i)}}(x,T)dx=0$

写成 $L e b e s g u e$ 积分的內积形式为：

$\langle\frac{\delta_L^{\mu^{(i)}}(x,T)}{d\omega_L^{\mu^{(i)}}},\delta_L^{\mu^{(i)}}(x,T)\rangle_\Omega=0\quad(19)$

结合式(17) 和式(19) 有:

$\begin{aligned} &\langle[\varphi_L(x(t+T))-\varphi_L(x(t))],[\varphi_L(x(t+T))-\varphi_L(x(t))]\rangle_\Omega\omega_L^{\mu^{(i)}}\\ &+\langle[\varphi_L(x(t+T))-\varphi_L(x(t))],\int_t^{t+T} r(x,\mu^{(i)}(x))d\tau\rangle_\Omega=0\quad(20) \end{aligned}$

假设 $\Phi=\langle[\varphi_L(x(t+T))-\varphi_L(x(t))],[\varphi_L(x(t+T))-\varphi_L(x(t))]\rangle_\Omega$ 可逆，有：

$\omega_L^{\mu^{(i)}}=-\Phi^{-1}\langle[\varphi_L(x(t+T))-\varphi_L(x(t))],\int_t^{t+T} r(x,\mu^{(i)}(x))d\tau\rangle_\Omega\quad(21)$

$4.\,$ 基于Actor/Critic的在线算法:

算法结构：
在这里插入图片描述
算法流程图：

示例1：

考虑如下动态系统：
$\left\{\begin{aligned} &\dot{x} _1= -x_1+x_2\\ &\dot{x} _2= f(x)+g(x)u \end{aligned}\right.$
其中， $-\frac12(x_1+x_2)+\frac12x_2\sin(x_1)\quad g(x)=\sin(x_1)$

定义无限时域性能指标函数 $V^u(x(t))=\int_t^\infty(Q(x)+u^2)d\tau$ , $Q(x)=x_1^2+x_2^2$

对 $\forall x\in\Omega$ ， $V^{\mu^{(i)}}(x)$ 由如下光滑函数近似：

$V_L^{\mu^{(i)}}(x)=(\omega_L^{\mu^{(i)}})^T\varphi(x)$ ， $L = 3$

$\omega_3^{\mu^{(i)}}=[w_1^{\mu^{(i)}}\,w_2^{\mu^{(i)}}\,w_3^{\mu^{(i)}}]^T$ ， $\varphi_3(x)=[x_1^2\,\,x_1x_2\,\,x_2^2]^T$

根据式(21)更新权重w。

matlab代码如下：

function odestart
clear all;close all;clc;global P;          %w权重
global Target;  %cost积分
global v;figure;hold on;%initializations
%iteration step
j=0;
%initial state
x0=[1 1 0];
% P gives the controller parameters
P=[-1 3 1.5];Target=0;
vv=[];
C=[];T=0.1;      %采样间隔
Fsamples=150;   %采样总点数    
nop=30;         %一次更新采样点数%next WW gives the initial stabilizing controller
WW=zeros(length(P),1+Fsamples/nop);     %记录w权重
WW(:,1)=P'; for k=1:Fsamplesj=j+1;% simulation of the system to get the measurementstspan=[0 T];[t,x]= ode23(@odefile,tspan,x0);x1=x(length(x),(1:2));X(j,:)=[x0(1)^2 x0(1)*x0(2) x0(2)^2]'- [x1(1)^2 x1(1)*x1(2) x1(2)^2]';Target=x(length(x),3);Y(j,:)=Target;%每次更新w，随机五次初始状态，即采样五条状态轨迹if mod(k,nop/5)==0x0=[2*(rand(1,2)-1/2) 0];elsex0=[x1 0];endplot(t+T*(k-1),x(:,1));vv=[vv v];      %记录控制量%每次更新w，采样nop个点if mod(k,nop)==0weights=X\Y;%calculating the matrix PP=[weights(1) weights(2) weights(3)];WW(:,k/nop+1)=[weights(1) weights(2) weights(3)]';X=zeros(nop,3);Y=zeros(nop,1);j=0;x0=[0.5*(rand(1,2)-1/2) 0];endend
P=[weights(1) weights(2) weights(3)]title('System states'); xlabel('Time (s)');figure; plot([0:T:T*(length(vv)-1)],vv); title('Control signal'); xlabel('Time (s)')figure; % in this figure we plot the neural network parameters at each iteration step in the policy iteration
WW % the matrix of parameteres is printed in the comand window
ss=size(WW);
plot((0:T*nop:T*Fsamples),WW(1,1:ss(2))','.-');hold on
plot((0:T*nop:T*Fsamples),WW(2,1:ss(2))','*:'); hold on
plot((0:T*nop:T*Fsamples),WW(3,1:ss(2))','o--'); 
legend('w_1','w_2 ','w_3');
title('W  parameters'); xlabel('Time (s)'); %hold on; plot(T*(Fsamples+1),WW(:,length(WW))','*'); title('W  parameters');%-------------------------------------------------------------------------------------
function xdot=odefile(t,x);
global P;
global v;Q=[1 0; 0 1];R=1;
x=[x(1) x(2)]';%calculating the control signal
% P are the parameters of the critic
v=-1/2*inv(R)*sin(x(1))*P*[0; x(1); 2*x(2)];%xdot=[A*[x1;x2;x3;x4]+B*v %+F*deltaPd
xdot=[[-1 1; -1/2 -1/2]*x+[0; 1/2*x(2)*(sin(x(1))^2)+sin(x(1))*v];   x'*Q*x+v'*R*v];
%-------------------------------------------------------------------------------------

运行结果：
在这里插入图片描述