GPT-4发布,能击败90%的人类

article/2025/11/10 21:47:12

05de7bcd956cedb5d9e5e009a4f185de.png

来源:青投创新

编辑:Tian

"许多人工智能研究人员认为,整合文本、音频和视频的多模态系统为构建更强大的人工智能系统提供了最佳途径。

今天(3月15日)凌晨,OpenAI宣布推出GPT-4,这是其AI语言模型系列中最新的一款,为ChatGPT和新Bing等应用提供支持。

在OpenAI的介绍里,对GPT-4的描述是:这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型,将接受图像和文本输入,提供文本输出,虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平。

在Live Demo中,OpenAI的总裁和联合创始人Greg Brockman展示了GPT-4的能力:总结文章、写代码、报税、写诗等等,过去GPT-3.5做不到的, GPT-4都可以完成。

结论就是,GPT-4是一个比ChatGPT更加强大的模型!

01

强大在哪里?

“GPT-3.5和GPT-4之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。”

OpenAI首席执行官Sam Altman在推特上表示,过去的两年里,团队重建了整个深度学习堆栈,并与微软Azure一起,为GPT工作负载从头开始共同设计了一台超级计算机。经过训练和修复更新之后,GPT-4前所未有的稳定,成为OpenAI能够提前准确预测其训练性能的第一个大型模型。

GPT-4的改进明显体现在系统进行多项测试和基准测试中的表现,包括统一律师考试、LSAT、SAT数学和SAT基于证据的阅读和写作考试。

在美国律师执照统考模拟中,GPT-4得分约为前10%——击败了90%人类,而ChatGPT背后的GPT-3.5得分约为倒数10%;生物奥林匹克竞赛,GPT-3.5能达到后31%水平分位,GPT-4可达到前1%水平分位;GRE、SAT考试成绩中,也有大幅提升,击败了80%以上的人类答题水平,而医学知识自测考试准确率达75%。

尽管在GPT-4的介绍中,OpenAI没有像往常一样透露训练参数数据,只用了“更大的模型”来表述,但从GPT-4能完成的任务和表现来看,无疑是要比上一代GPT-3的1750亿个参数多很多倍。

并且GPT-4 由深度学习技术开发而来,是在公开可用和已被许可数据上进行的训练,并使用强化学习和人工反馈进行微调,这使得GPT-4相比上一代还接受了更多的训练,大幅提高数据与计算方面的能力。

GPT-4是多模态的,即不仅能接受图片、视频、音频的输入,还能同样输出图片、视频和音频。

许多人工智能研究人员认为,整合文本、音频和视频的多模态系统为构建更强大的人工智能系统提供了最佳途径。

02

存在的问题

OpenAI在发布GPT-4时强调,该系统已经进行了六个月的安全培训,并且在内部测试中,与GPT-3.5相比,GPT-4对禁止或不恰当内容做出响应的可能性降低了82%,做出实际响应的可能性提高了40%,这是对早期GPT模型皆会出现问题的一种修正:随意编造事实或触发敏感内容。

然而,这并不意味着系统不会出错或输出不恰当的内容。例如,微软透露其Bing搜索引擎一直由GPT-4驱动,许多用户能够以各种方式破解Bing的防护,让AI提供危险的建议,威胁用户,并编造信息。

而且GPT-4仍然是基于2021年9月之前的数据训练的,因此GPT-4还缺乏对2021年 9月之后数据的有效理解。

“GPT-4 仍有许多已知的局限性,我们正在努力解决,例如社会偏见、幻觉和对抗性提示。”OpenAI表示。

03

应用与竞争

OpenAI已经与多家公司合作,要将GPT-4结合到他们的产品中,包括Duolingo、Stripe和Khan Academy。

GPT-4模型也将以API的形式,提供给付费版ChatGPT Plus(OpenAI每月20美元的ChatGPT订阅)的订阅用户,开发者可以注册,用它打造应用。

微软此后表示,新Bing搜索引擎将运行于GPT-4系统之上。

OpenAI进一步强调,GPT-4“比以往任何时候都更具创造力和协作性,可以更准确地解决难题”。

与此同时,谷歌方面为了迎战微软,宣布将一系列即将推出的AIGC功能,应用到自家产品中,包括谷歌Docs、Gmail、Sheets和 Slides。

但不同于微软和OpenAI的“发布即可用”,谷歌只会先将Docs和Gmail中的AI工具,在月底提供给一些“值得信赖的开发人员”,而其它功能则将是在今年晚些时候向公众开放。

至于具体时间,谷歌方面并没有具体说明,外界对此评价是谷歌希望抢先微软原定于本周四的发布,但依旧让微软抢先了,所以将暂缓对公众对开放。

而国内的百度早先也宣布将在3月16日正式发布文心一言,但与谷歌面临的窘境一致,在OpenAI推出更加强大的GPT-4后,是否会对文心一言的发布有影响,还需明日揭晓。

美国伊利诺伊大学香槟分校计算机系教授李博表示,短期来看ChatGPT作为文章写作、代码生成的辅助查错工具还不错,但是还不能完全依赖ChatGPT来做回答和搜索,因为它的回答不能保证正确性。

长期来看,她认为ChatGPT可以和不同的AI模型工具结合,做更友好的自动问答系统、学习工具等辅助性工具。此外李博认为,如果要长久发展并用于重要领域中,ChatGPT的可信赖性保证、纠错能力等非常重要。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

09235f5b7468060c52ee7d7286d3a81e.jpeg


http://chatgpt.dhexx.cn/article/XyONPd6V.shtml

相关文章

实力爆表,日日新成为AI领航者

目录 正式发布自建算力SenseChat编程能力图像生成后言 上周五,阿里发布大模型通义千问,正式开始邀请内测。本周一,人工智能巨头商汤科技正式发布“日日新”大模型体系,全面丰富的产品体系,多个功能表现超预期&#xff…

【Pytorch基础教程36】基于Ernie预训练模型和Bert的新闻分类

文章目录 一、新闻分类任务1.1 中文数据集1.2 数据特点1.3 跑起代码 二、 预训练语言模型ERNIE2.1 ERNIE模型结构2.2 bert模型结构 三、项目代码1. bert模型2. ERNIE预训练模型 Reference 一、新闻分类任务 1.1 中文数据集 从THUCNews中抽取了20万条新闻标题,已上…

2012年决胜HTML5 十四大Web预测盘点

【IT168 评论】无论是当红科技企业如Zynga、Facebook、Google和Apple,还是刚刚诞生的初创企业,2012年都是决胜HTML5的一年。以下是关于HTML5在2012发展趋势的大胆预测: 一、欢迎来到更加互联的Web世界 2012年,HTML5将增加更多有用…

前端开发要点—Yahoo十四大军规

一.尽可能的减少HTTP请求数 http请求:从客户端到服务器端的请求消息。包括消息首行中,对资源的请求方法、资源的标识符及使用的协议。 简单地说,当你打开网页时,你所看到的文字、图片、多媒体等等,这一切内容&#xff…

分布式专题|吐血整理Redis 十四大知识点,帮助小白从0到1蜕变

文章目录 摘要环境搭建redis Docker方式安装使用源码方式安装redis 一、五种基本数据类型的操作与应用场景string 字符串类型基本指令应用场景 hash(哈希)基本操作指令应用场景 list(链表)基本指令应用场景 set(集合)基本指令应用场景 zset(有序列表)基本…

新AI时代序幕已拉开 不信请看这十四大例

时间过得比我们预想的要快,并且摩尔定律依然在发挥着作用。但是,仍然有很多事情要做。在接下来的文章中,我希望能够列出2019年(部分发生在2018年)机器学习(ML)和深度学习(DL)领域的重大事件。这…

使用腾讯云服务器+Nonebot2+go-cqhttp搭建QQ聊天机器人【保姆级教程 2023最新版】

文章目录 一、查看conda版本二、查看系统版本三、配置go-cqhttp1.请切换至同一网络下扫码2.打包Docker镜像 四、创建NoneBot环境安装脚手架 一、查看conda版本 二、查看系统版本 uname -a arch getconf LONG_BIT三、配置go-cqhttp 下载go-cqhttp 这里有不同版本的cqhttp,并且…

〖毕业季|进击的技术er〗其他人都在缅怀青春、告诉你如何拿到 offer 、提高自己的技术栈、做未来规划路线,我偏要反其道而行、告诉你们一个不一样的技术er的职场成长。

订阅 Python全栈白宝书-零基础入门篇 可报销!白嫖入口-请点击我。推荐他人订阅,可获取扣除平台费用后的35%收益,文末名片加V!说明:该文属于 Python全栈白宝书专栏,免费阶段订阅数量4300,购买任意…

用计算机弹怎么会爱上了他,怎么会爱上了他,并决定跟他回家?《纸短情长》...

靠谱吉他官方微信——为您推送靠谱的教学、演奏以及互动话题,专业靠谱、欢迎关注! 《纸短情长》,怎么会爱上了他? 《纸短情长》主要描写了一段他通过写信的形式给已婚前女友的她写情歌,回忆留恋曾经的那段感情的故事。…

cdr怎么把矩形去掉一个边_cdr画矩形怎么把中间弄掉

2020-05-16阅读(27) 本文主要为您介绍手机钢化膜边缘多一块怎么办,内容包括手机钢化膜大一块怎么办,难看死了有没有什么方法可以消除钢化膜白边,手机钢化屏有白边怎么办。手指甲压一下白边的边缘缝隙中把油沾进去,沿着手机一圈弄好之后,用手适当按压边缘将多余的 2020-05-…

Html用表单和列表写一个注册界面

效果图 代码&#xff1a; <!DOCTYPE html> <html><head><meta charset"utf-8"><title>表单案例</title><style type"text/css">#box{width: 37.5rem;margin: 0 auto;margin-top: 30px;}body{background-color:…

大数据显示“男人不如狗” 我和几个男同事聊了聊

日前京东公布的一份大数据排行榜上&#xff0c;投资人心目中消费价值从高到低依次是少女>儿童>少妇>老人>狗>男人&#xff0c;换句网络上的话说&#xff0c;男人不如狗。 朋友圈瞬间炸了。 “男人不如狗”这几个字乍一看上去还挺冲击的&#xff0c;男人们心想着…

致自己的一封信

又是一年一度的程序员节&#xff0c;记得上一年的时候还带朋友给他女朋友找房子&#xff01; 找完房子&#xff0c;在楼底下随手拍了一张照片发了个朋友圈&#xff01;拍下的原因是在北京很少看到这样的建筑&#xff0c;所以就拍了下。今天翻了一下照片&#xff0c;不得不感叹…

一个华为人辞职创业后的几个反思

作者是一个在华为工作6年的华为人&#xff0c;2年前&#xff0c;抱着做大事业的愿景&#xff0c;作者与几个朋友离开华为&#xff0c;希望能闯出一个路子来创业。原文来自通信人家园论坛&#xff1a; 时隔两年&#xff0c;笔者的创业经历就像是一出狗血剧&#xff0c;各种电视剧…

你首先是一个人,然后你才是程序员。

引言 写这篇文章&#xff0c;其实是源自于当时在简书上&#xff0c;一个简友简信的内容。 当时这个简友问了群主一个非常少见的问题&#xff0c;“LZ&#xff0c;你平时是如何保养你的皮肤的。” 看完这个&#xff0c;LZ忍不住乐了&#xff0c;过后还拿着手机忍不住给某璐璐炫耀…

java写一个结婚的方法_java完成民政局结婚案例(面向对象)

展开全部 package test_1; import java.util.Scanner; public class Person { private String name; private String gender; private int age; private boolean married;//规定已婚&#xff1a;false.未婚&#xff1a;true public String getName() { 62616964757a686964616fe…

人机交互-7-交互需求定义

1. 背景 无论取代或更新已有系统&#xff0c;还是开发新产品&#xff0c;需求的建立都是非常重要的需求获取是项目设计的第一个阶段 确定和记录现有的工作流程&#xff1a;收集将信息组织起来&#xff0c;整体上涵盖工作的各个方面&#xff1a;描述 产品是不同的&#xff1a;对…

一个人生必做的选择

人要面临很多选择&#xff0c;不同的选择有不同的结果。也许你会说&#xff1a;“我啥选择都不做&#xff0c;我顺其自然&#xff01;” 很抱歉&#xff0c;啥选择都不做也是一种选择。 就好比6年前&#xff0c;我毅然决定来到北京&#xff0c;誓要创出一片天地一样&#xff0c…

英国留学雅思考试如何从听、口语、阅读、写作入手∩

雅思考试是申请英国留学的非常重要成绩&#xff0c;很多留学生想要知道如何高校备考&#xff0c;那么今天小编就给大家介绍英国留学雅思考试如何从听、口语、阅读、写作入手&#xff1f; 雅思的题型和我们经历过的中高考、四六级考试类似&#xff0c;分为听说读写四大类。 听力…

九分达人 雅思听力真题6 test1part1-4练习笔记

一定要静下心来认真复习错题 &#xff08;做的多&#xff0c;但是不消化是没有用的&#xff0c;如果不找到自己的问题所在&#xff0c;那么做题、刷题是毫无意义的&#xff09; 这里的问题&#xff0c;把French拼错成franch了&#xff0c;而且真的很离谱&#xff0c;我之前一直…