联邦强化学习

article/2025/8/22 19:15:31

本博客地址:https://security.blog.csdn.net/article/details/123710121

一、联邦强化学习介绍

强化学习(RL)是机器学习的一个分支,主要研究序列决策问题,强化学习系统通常由一个动态环境和与环境进行交互的一个或多个智能体(agent)组成。智能体根据当前环境条件选择动作决策,环境在智能体决策的影响下发生相应改变,智能体可以根据自身的决策以及环境的改变过程得出奖励。

对于智能体的周期,智能体首先会观察环境的状态,然后基于这个状态选择动作,同时智能体期望根据所选的动作从环境中得到奖励,智能体的奖励与其上一步的状态、下一步状态和所做出的决策等因素有关。因此,智能体会在【状态-动作-奖励-状态-动作】周期(SARSA)中循环移动。

除了智能体和环境,强化学习系统还包括四个关键子元素:

● 策略。策略定义了智能体在给定状态时选择动作的方式。
● 奖励。奖励定义了在强化学习问题中,环境到智能体的即时反馈。
● 价值函数。价值函数是一种在给定状态下测量动作的长期回报奖励的方法。
● 环境模型。环境模型是一种模拟环境动作的虚拟模型。

二、强化学习算法

强化学习算法的分类:

1、基于模型与无模型

基于模型的方法首先尝试建立环境的虚拟模型,然后根据虚拟模型得出的最佳策略进行操作。无模型方法假设环境模型不能被建立,并通过反复迭代来修正价值函数和智能体策略。

2、基于价值与基于策略

基于价值的方法试图学习价值函数,并从中得到最优策略。基于策略的方法直接从策略参数中进行搜索,寻找最优策略。

3、蒙特卡洛更新与时间差分更新

蒙特卡洛更新通过使用整个周期内的积累奖励来评估策略,它需要大量的迭代次数才能收敛。时间差分更新计算的是误差,即价值函数的新估计值和旧估计值的差值,它减小了方差,但同时由于过程的全局视图没有被考虑到,可能会导致偏差增大。

4、在策略与离策略

在策略的方法使用当前策略来生成动作并以此更新当前策略。离策略的方法使用一个不同的探索性策略来生成动作,目标策略将基于这些动作来更新。

下表总结了常见的强化学习算法及分类:

算法无模型基于模型基于策略基于价值蒙特卡洛更新时间差分更新离策略在策略
Q-Learning
SARSA
策略梯度
Actor-critic
蒙特卡洛学习
SARSA匿名函数
深度Q-网络

三、分布式强化学习

1、异步优势动作评价算法(A3C)

在异步场景中,多个智能体分别探索它们自己的环境,并异步地更新一组全局参数。但由于一些智能体的延迟,可能会遇到梯度陈旧问题。

通用强化学习架构(Gorila)是一种用于大规模分布式强化学习的异步框架,它可以创建多个智能体,且将它们备份为包括参与者和学习者在内的不同角色。参与者只能通过环境中的行动来生成经验,收集的经验存储于一个共享的回访内存中,学习者只能通过从回访内存中取样来进行训练。

2、同步分布式强化学习

Sync-Opt同步随机优化:主要用来解决同步强化学习中存在的智能体速度缓慢、分布散乱的问题。
优势动作评价算法(A2C):除以异步优势动作评价算法工作外,它还会在轮次间对所有的智能体进行同步。

四、横向联邦强化学习(HFRL)

4.1、横向联邦强化学习框架

横向联邦强化学习主要用来应对隐私保护问题,其应用了并行强化学习应用的基础设置,并将隐私保护任务作为一项额外约束(同时对于联邦服务器和智能体)。

横向联邦强化学习的基本框架:

在这里插入图片描述

执行横向联邦强化学习的基本步骤如下:

● 步骤一:

所有RL智能体在本地独立训练各自的强化学习模型,且不会交换任何数据经验、参数梯度及损失。

● 步骤二:

RL智能体将加密过的模型参数发送给服务器。

● 步骤三:

联邦服务器对来自非同一的RL智能体的模型进行加密和融合,从而得到一个联邦模型。

● 步骤四:

联邦服务器将联邦模型发送给各RL智能体。

● 步骤五:

RL智能体更新本地模型。

4.2、终生联邦强化学习

自主导航设定下的终生联邦强化学习(LFRL),它的主要任务是使得机器人共享各自的经验,从而让它们可以高效地利用前驱知识快速适应环境中产生的新变化。LFRL算法的步骤如下:

● 步骤一:

独立学习。每一个机器人在各自的环境中执行各自的导航任务,环境可以是不同的、相关的或不相关的。另外它是在本地执行终生学习,以学习避免多种类型的障碍。

● 步骤二:

知识融合。机器人从已定义或未定义的环境中抽取相应的知识和技能,之后会通过知识融合过程,将已学到的知识融合成最终的模型。

● 步骤三:

智能体网络更新。各智能体的网络参数将会定期更新,由不同智能体获得的知识可以通过这些参数来进行共享。

4.3、横向联邦强化算法在实践中的价值

横向联邦强化算法在实践中可以带来很多有益的地方,例如:

● 避免非独立同分布样本。HFRL可以为建立一个更精确、更稳定的强化学习系统提供增益。
● 提高样本效率。HFRL可以对不同智能体从非同一环境抽取出的知识进行集中聚合,从而缓解低样本效率问题。
● 加速学习进程。通过与联邦学习框架相结合,从更多非同一分布样本中的学习到的经验可以加速强化学习的进程。

五、纵向联邦强化学习(VFRL)

5.1、纵向联邦强化学习框架

在纵向联邦强化学习中,有不同的RL智能体维持对同一环境的不同一观察,每一个RL智能体维护一个对应的动作策略。协作框架的主要目的是通过利用从不同的协作智能体拥有不同的观察结果中提取的混合知识,训练一个更有效的RL智能体。在训练或推理过程中,任何对原始数据的传递都是被禁止的。下

VFRL框架-联邦DQN:

在这里插入图片描述

我们把从环境获得奖励的RL智能体命名为Q-网络智能体(上图中的智能体A),其他智能体命名为协作RL智能体。

● 步骤一:

所有的RL智能体根据当前环境的观察结果和抽取的知识进行动作决策,这其中可能有智能体不进行动作,只维持各自对于环境的观察。

● 步骤二:

RL智能体得到环境对应的反馈结果,包括当前环境的观察和奖励等。

● 步骤三:

RL智能体通过将得到的观察内容放入自己的神经网络中以计算中间结果,之后将加密过的中间结果发送给Q-网络智能体

● 步骤四:

Q-网络智能体对所有的中间结果进行解密,并使用当前的损失通过反向传输方法训练Q-网络。

● 步骤五:

Q-网络智能体将加密过的权重梯度发送给各个协作智能体。

● 步骤六:

每一个协作智能体对梯度进行解密并更新各自的网络模型。

5.2、纵向联邦强化学习的优势

与多智能体强化学习相比,VFRL的优点可以总结为:避免智能体和用户的信息泄露,同时提高强化学习性能。


http://chatgpt.dhexx.cn/article/lpFbjdQ7.shtml

相关文章

初探强化学习(7)基于模型的强化学习的应用综述

本文是直接翻译一篇文章的,我先把原文地址放在这里。 原文名字为:Survey of Model-Based Reinforcement Learning: Applications on Robotics 这是一个2017年的论文 1. Introduction 强化学习(Regulation Learning,RL&#xff0…

强化学习常见案例

文章目录 1. 有趣的强化学习视频1.1 小红小蓝捉迷藏1.2 红球绿球1.3 OpenAI机器人跑步1.4 OpenAI赛艇游戏(CoastRunners) 2.可以交互操作的游戏2.1 GridWorld2.2 Puck world 入门强化学习的时候,看到许多教程都给了很多强化学习的例子&#x…

多任务深度强化学习入门

理论概述 多任务深度强化学习,英文Multi-Task Deep Reinforcement Learning ,简称MTDRL或MTRL。于MARL不同,它可以是单智能体多任务的情况,也可以是多智能体多任务的情况。 现在的深度强化学习领域虽然在很多特定任务上有着超越…

初探强化学习(11)Dyna类型的强化学习

为什么研究Dyna类型的强化学习呢? 主要是因为这个类型的强化学习是融合了model-based和model free两个类型的强化学习。 主要参考的博客是这个。说实话,我也是时隔三天后,第三次看了这个博客才彻底明白的。至于为什么名师,是因为我…

强化学习笔记:强化学习的约束

1 所需的样本数量过大 深度强化学习一个严重的问题在于需要巨大的样本量。举个例子,玩Atari游戏 图 19.17 中纵轴是算法的分数与 人类分数的比值, 100% 表示达到人类玩家的水准。 图中横轴是收集到的游戏帧数,即样本数量。 Rainbow DQN 需…

强化学习的模型

文章目录 前言一、强化学习是什么?二、基本模型1.基本框架2.学习过程 三.马尔科夫决策过程(Markov Decision Process. MDP)1.马尔科夫性质2.MDP的基本组成部分3.MDP的基本流程 四、基于模型和免模型的强化学习1.模型2.基于模型的强化学习&…

深度强化学习调研

深度强化学习(DRL) (一)强化学习 强化学习(Reinforcement Learning,简称RL)是机器学习领域的一个研究热点,当前已经广泛应用于工业制造、仿真模拟、机器人控制、优化与调度、游戏博…

强化学习总结

强化学习 一、强化学习概述 1.强化学习简介 强化学习最早可以追溯到早期控制论以及统计、心理学、神经科学、计算机科学等学科的一些研究。在最近的五到十年中,强化学习在机器学习和人工智能研究者中得到了大量的关注,它描绘了一种在不进行具体指导的情…

强化学习介绍

文章目录 1 什么是强化学习?2 强化学习的特征与特点3 强化学习的要素与框架3.1 Policy3.2 Reward3.3 Value3.4 model3.5 Return(cumulative future reward) 回报|未来累积回报3.6 Discounted return 折扣回报 4 强化学习流程5 例子 马里奥 (一定要看&…

强化学习(Q-learning)

强化学习RF简介 强化学习是机器学习中的一种重要类型,一个其中特工通过 执行操作并查看查询查询结果来学习如何在环境中表现行为。 机器学习算法可以分为3种:有监督学习(Supervised Learning)、无监督学习(Unsupervi…

强化学习简介

强化学习简介 强化学习(Reinforcement Learning,RL)是机器学习中的一个领域,是学习做什么(即如何把当前的情景映射成动作)才能使得数值化的收益最大化,学习者不会被告知应该采取什么动作,而是必须自己通过尝试去发现哪…

强化学习(一):简介——什么是强化学习?

本文将介绍强化学习的基本含义,了解什么是强化学习、强化学习的概念与基本框架以及强化学习中常见的问题类型。 什么是强化学习? 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习&#xff0c…

机器学习算法(三十):强化学习(Reinforcement Learning)

目录 1 简介 1.1 什么是强化学习 1.2 强化学习的主要特点 1.3 强化学习的组成部分 2 强化学习训练过程 3 强化学习算法归类 3.1 Value Based 3.2 Policy Based 3.3 Actor-Critic 3.4 其他分类 4 EE(Explore & Exploit)探索与利用 5 强化…

强化学习入门这一篇就够了!!!万字长文

强化学习 强化学习入门这一篇就够了万字长文带你明明白白学习强化学习... 强化学习入门这一篇就够了 强化学习前言一、概率统计知识回顾1.1 随机变量和观测值1.2 概率密度函数1.3 期望1.4 随机抽样 二、强化学习的专业术语2.1 State and action2.2 policy-策略2.3 reward2.4 状…

关于gensim的一些使用记录

NLP神器 Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。 支持包括TF-IDF,潜在语义分析(Latent Semantic Analysis,LSA),潜狄利克…

gensim官方文档实践笔记

中文文档比机翻还颠三倒四, 所以还是自己记录一下, 顺便加一些注解. 目录 文档document 语料库Corpus 语料库作用 语料库预处理 词汇编号 向量Vector 方法1: 特征向量(vector of features) 方法2: doc2bow 模型Model 语料库和向量空间 字符串转向量 语料库流Corpu…

gensim安装

输入以下命令即可: pip install gensim -i http://pypi.douban.com/simple --trusted-host pypi.douban.com以下是过程: 尝试1:直接在anaconda3上面搜索出来安装 速度太慢,失败 尝试2:更换pip源,如下所示…

Gensim:一款进行文本主题识别的 Python 工具库

从大量文本中自动提取人们谈论的主题(主题识别)是自然语言处理的基本应用之一。大型文本示例包括社交媒体订阅、消费者对酒店、电影和其他业务的评价、用户评论、新闻和客户发来的邮件。 在本中,将使用LDA 从 20Newsgroup 数据集 中提取主题的实战案例。欢迎深入探…

gensim 快速入门 Word2Vec

文章目录 gensim的核心概念Word2Vec简介Word2Vec初试探将单词可视化 训练自己的Word2Vec模型 gensim的核心概念 Document: 文档。可以是一个一句话,或者一段话Corpus: 文档的集合Vector: 文档向量。将文档通过数学向量表示。Model: 模型。将文档转换为向量的模型。…

vue获得焦点事件处理函数中控制其失去焦点,但是失去焦点后该获得焦点事件一直被触发

当input获取焦点的时候需要判断另一个操作是否已完成,否则需要引导用户先去执行另一个操作,是则允许输入。 另一个操作跟当前操作是在同一个页面上,无法通过“下一步”进行控制。 解决思路是: 当input获取焦点的时候&#xff0…