青源LIVE第29期|清华叉院高阳:使用1/500数据掌控Atari游戏-EfficientZero算法详解

article/2025/11/9 19:33:32

99a6911385d66aa73677bb00ff54fb22.png

当前强化学习已在许多应用中取得了巨大成功。但样本效率仍是强化学习中一个重大挑战,重要的方法需要数百万(甚至数十亿)的环境步骤来训练。虽然,当前在基于图像的样本高效RL算法方面取得了重大进展;但是,在Atari游戏基准上,要达到与人类水平相一致,仍然是一个难以实现的目标。

智源社区特邀请了清华大学交叉信息研究院助理教授高阳博士分享其团队的新研究《使用有限数据掌控Atari游戏》( Mastering Atari Games with Limited Data)。

dded199d542fa2a5017c5b1338c95784.png

论文链接https://arxiv.org/abs/2111.00210#


3873310bb559700055ed5d092cbf3619.png

主讲人:高阳,博士,清华大学交叉信息研究院助理教授。博士毕业于美国加州大学伯克利分校,本科毕业于清华大学计算机系。主要研究计算机视觉与机器人学。

个人主页:http://people.iiis.tsinghua.edu.cn/~gaoyang/

主题:使用有限的数据掌握Atari游戏

时间:2021年11月23日(周二)19:00~20:00

形式:线上

入会方式:

腾讯会议-ID:976 455 019

直播地址一:

https://event.baai.ac.cn/activities/191

直播地址二:

http://live.bilibili.com/21484823

报告简介:

近期,清华大学交叉信息研究院高阳团队的新研究《使用有限数据掌握Atari游戏》( Mastering Atari Games with Limited Data)提出了EfficientZero算法。基于该算法可实现,通过少量的数据学习就能让RL智能体获得超越人类的性能,这使得通用强化学习更加接近真实场景。此项重大的研究在学术界引起了大范围的关注和热议。

42b63243e613952847d9aa50b7e0c467.png

5fad2213b59153c587f1d6e0404e5316.png

这是一种基于MuZero的基于模型的视觉RL算法,在贴近现实复杂情况的Atari(雅达利)游戏中,它从零开始仅用两个小时的训练数据,就能超过相同条件下人类的平均水平。这是第一次一个算法在Atari游戏中用如此少的数据达到超人的表现。

db73629a531a357dd5b6d942fa3c2c56.png

EfficientZero的性能也接近DQN在2亿帧时的性能,而其的数据消耗量却减少了500倍。EfficientZero的低样本复杂度和高性能可以使RL在现实世界中更具适用性。


扫描下面二维码报名参加活动

3b749577327b0d971d5e41f782eca73c.png

了解更多信息请加入「强化学习」交流群

6e8dc9f616159c968d54d19d44bc8275.png


http://chatgpt.dhexx.cn/article/0SDusVdh.shtml

相关文章

修改windows系统的host文件

修改windows系统的host文件 最近要使用一款免费软件,所以用到修改该文件这一项。 遇到的问题 真正的修改是要对这个文件赋予高的权限,路径里面查找到该文件,C:\WINDOWS\system32\drivers\etc,点击host文件,点击属性…

win7 host文件的位置

文件在 C:\Windows\System32\drivers\etc 文件内容如下: # Copyright (c) 1993-1999 Microsoft Corp. # # This is a sample HOSTS file used by Microsoft TCP/IP for Windows. # # This file contains the mappings of IP addresses to host names. Each # en…

r星服务器在那个文件,gta5修改host文件连接r星服务器方法介绍

《GTA5》中很多反映遇到登陆R星服务器很慢或者连接不上的问题,如何解决?下面带来玩家“俠盗猎车手5”分享的优化连接R星服务器方法,一起来看看吧。 【用处】host文件加入下面这段,可以优化登入r星网络。亲测登入速度快很多了。 # …

JS排序算法(冒泡排序、选择排序、插入排序、快速排序、归并排序)

排序 一些排序算法的复杂度&#xff1a; 冒泡排序法 时间复杂度&#xff1a;O(n^2) 相邻的元素进行比较&#xff0c;若存在大小关系就进行交换&#xff0c;如此循环直到数组有序 function BubbleSort(arr){let lenarr.lengthfor(let i0;i<len;i){for(let j0;j<len-1;…

js排序算法详解-快速排序

全栈工程师开发手册 &#xff08;作者&#xff1a;栾鹏&#xff09; js系列教程5-数据结构和算法全解 js排序算法详解-快速排序 既然是快速排序&#xff0c;那顾名思义一定很快&#xff0c;快的连小编都被懵逼了好几圈&#xff01;建议先不要看动图&#xff0c;先看第一种写法…

JS排序算法(升序)

视频课地址&#xff1a;https://www.bilibili.com/video/BV1yK4y1u7BU/?spm_id_from333.788.video.desc.click&vd_sourceb57e6f6cee98af762f85f7a2cceb0a75 感谢大佬无私分享&#xff01; 选择排序 找出数组中最小项&#xff0c;与当前项交换位置 function selectSort(ar…

1.JS排序算法之冒泡排序

冒泡排序&#xff08;Bubble Sort&#xff09;&#xff0c;顾名思义类似于水中冒泡,较大的数沉下去,较小的数慢慢冒起来。通过交换元素位置&#xff0c;达到排序目的&#xff0c;是一种交换排序。 目录 一、冒泡算法原理 二、冒泡算法分析 三、冒泡算法应用实例 四、冒泡排…

js之排序算法简洁

1、冒泡排序 1.1从右往左两两比较&#xff0c;把每轮的最小值放在了arr[i]. 双重for循环 外层循环&#xff1a;定位。 内层&#xff1a;比较交换。 最好时间复杂度&#xff1a;O&#xff08;n&#xff09; 最差时间复杂度&#xff1a;O&#xff08;n^2&#xff09; 平均时间复杂…

JavaScript算法-排序算法

​ 此生之路&#xff0c;我将走过&#xff1b;走过这一次&#xff0c;便再也无法重来。所有力所能及的善行&#xff0c;所有充盈于心的善意&#xff0c;我将毫不吝惜&#xff0c;即刻倾予。我将再不拖延&#xff0c;再不淡漠&#xff0c;只因此生之路&#xff0c;再也无法重来。…

一个简单的js快速排序算法

简介&#xff1a; 快速排序是对冒泡排序的一种改进。它的基本思想是&#xff1a; 通过一趟排序将要排序的数据分割成独立的两部分&#xff0c;其中一部分的所有数据都比另外一部分的所有数据都要小&#xff0c;然后再按此方法对这两部分数据分别进行快速排序&#xff0c;整个排…

js排序算法详解-插入排序

全栈工程师开发手册 &#xff08;作者&#xff1a;栾鹏&#xff09; js系列教程5-数据结构和算法全解 js排序算法详解-插入排序 插入排序的原理其实很好理解&#xff0c;可以类比选择排序。选择排序时在两个空间进行&#xff0c;等于说每次从旧的空间选出最值放到新的空间&am…

JS 常见排序算法汇总(全)

文章目录 排序算法总结JS 十大排序算法冒泡排序单向冒泡双向冒泡选择排序插入排序快速排序归并排序桶排序基数排序计数排序 排序算法总结 JS 十大排序算法 冒泡排序 作为最简单的排序算法之一&#xff0c;冒泡排序感觉就像Abandon在单词书里出现的感觉一样&#xff0c;每次都…

常用排序算法(js)

复习排序算法 时间复杂度、空间复杂度、稳定新 排序算法时间复杂度空间复杂度稳定性冒泡O(n^2)O(1)是选择O(n^2)O(1)不是插入O(n^2)O(1)是希尔O(nlogn)O(1)不是快速O(nlogn)O(nlogn)不是 1. 冒泡排序 思路&#xff1a;每一轮都对相邻的两个元素进行比较&#xff0c;如果逆序…

JS实现快速排序算法

快速排序的基本思想是选择数组中的一个元素作为关键字&#xff0c;通过一趟排序&#xff0c;把待排序的数组分成两个部分&#xff0c;其中左边的部分比所有关键字小&#xff0c;右边的部分比所有关键字大。然后再分别对左右两边的数据作此重复操作&#xff0c;直到所有元素都有…

JavaScript排序算法专栏(JS十大排序算法详解)

一、冒泡排序 1、Explanation And Steps&#xff08;解释的步骤&#xff09; 冒泡排序&#xff08;Bubble Sort&#xff09;也是一种简单直观的排序算法。它重复地走访过要排序的数列&#xff0c;一次比较两个元素&#xff0c;如果他们的顺序错误就把他们交换过来。走访数列的…

JS实现经典的排序算法

几大经典排序算法实现&#xff1a; 1.排序算法介绍&#xff1a; 2.基本算法 2.1 冒泡排序 function bubbleSort(arr) {var len arr.lengthfor (var i 0; i < len; i) {for (var j 0; j < len - 1 - i; j) {if (arr[j] > arr[j 1]) {;[arr[j], arr[j 1]] [arr…

js实现常见排序算法

文章目录 前言一、排序相关概念1.比较排序和非比较排序比较排序非比较排序 2.稳定性和不稳定性 二、各排序算法对比三、排序算法中的通用函数以及对数器1.通用函数交换函数取两索引的中间下标&#xff0c;中间值mid 2.对数器 四、各排序算法的实现1.冒泡排序算法思想过程图解代…

js-常见排序算法

目录 一、选择排序 二、冒泡排序 三、插入排序 1. 希尔排序 四、归并排序 五、快速排序 版权声明&#xff1a;本文为博主原创文章&#xff0c;若文章中有错误请联系博主改正&#xff0c;请不要恶意留言(不喜欢请绕道)。欢迎大家转载&#xff0c;转载时请注明原文地址:https://b…

3.JS排序算法之选择排序

选择排序&#xff08;selectSort&#xff09;&#xff0c;顾名思义&#xff0c;每次选择最值进行排序 目录 一、选择排序算法原理 二、选择排序算法分析 三、选择排序算法应用实例 四、选择排序的适用场景 一、选择排序算法原理 1.思路 选择排序的实现思路是从未排序序列中…

JavaScript实现十大排序算法(图文详解)

冒泡排序 排序的效果图 解法 当前解法为升序 冒泡排序的特点&#xff0c;是一个个数进行处理。第i个数&#xff0c;需要与后续的len-i-1个数进行逐个比较。 为什么是 len-i-1个数&#xff1f; 因为数组末尾的i个数&#xff0c;已经是排好序的&#xff0c;确认位置不变的了。…