ChatGPT的评估指标有哪些?微调与上下文学习是否存在相似性?

article/2025/4/22 9:03:27

NLP 分很多的任务,不同的任务有不同的指标来度量模型质量,比如AUC,Precision/Recall是分类模型的度量指标。

27871cb4c77a18ff85d03ea658076171.png

ChatGPT可以看作一个生成式语言模型,简单说就是给它输入一段文字,它会输出另一段文字,当然输出和输入之间是有关联的。对于这类模型,本文将介绍部分评估指标。

Q

在传统的机器学习中,我们有AUC、Precision/Recall等指标,但是衡量ChatGPT输出质量应该使用什么指标呢?

1

BLEU分数(BLEU Score)

基于n-gram重叠度量生成文本和参考文本之间的相似性,评估机器生成的文本与参考文本之间的质量。然而,BLEU具有一些局限性,可能无法完全捕捉质量差异的全部范围。

2

困惑度(Perplexity)

表示模型在对给定文本进行预测时的不确定性和混乱程度。

3

语言流畅度(Fluency)

生成文本的流畅性和符合自然语言表达的能力。

4

相关性(Relevance)

生成文本应该与前文内容相关,并符合预期的输出内容。

5

语义准确性(Semantic Accuracy)

生成文本的意义是否符合原始输入或上下文的意义。

6

多样性(Diversity)

生成文本的多样性和独创性。

7

一致性(Coherence)

生成文本的连贯性、逻辑性和清晰度。

ChatGPT 作为生成模型,上述指标都可以对其进行评价。而困惑度在很大程度上可以区分人类生成语言和模型生成语言,因此近来兴起的一系列针对ChatGPT的反作弊工具都会将困惑度作为评判是否机器生成的依据。

c05a61f70bf149273379a42842ed615d.png

Q

如何理解“微调”和上下文学习在LLM中的相似性?这是否意味着使用这些学习方法将在下游任务中获得类似的性能?

A

In-context Learning 的基本思想是将学习的过程集成到使用模型的过程中,从而使模型能够根据实时输入的上下文信息自适应地调整自己的行为和输出。比如现在常说的Prompt Learning(又叫 Prompt-based Learning)就属于In-context Learning。

Pretrained Model + Finetuning 与 LLM + Prompt Learning 是两种不同的范式。前者一般指针对特定的下游任务(例如分类、续写等),在Pretrained Model原有的网络结构上在增加一到多层额外的网络层,然后进行训练,Finetuned Model既改变了Pretrained Model的网络结构也改变了其中的参数。而后者则是不会改变LLM原本的网络结构或参数的。

Q

微调方法是否会导致灾难性遗忘?如果是,那么上下文学习方法是否比微调方法更好?

A

Catastrophic forgetting 说的是在一个任务上训练出来的模型,如果在一个新任务上进行训练,就会大大降低原任务上的泛化性能,即之前的知识被严重遗忘了。

Finetuning和catastrophic forgetting之间并没有必然的关联。而Prompt Learning从实践的角度,也又发现教了新知识LLM忘了之前教授知识的情况。

622537f3b434fe50ed954982a66253e2.gif


http://chatgpt.dhexx.cn/article/EGtrJSrX.shtml

相关文章

如何评价一个新技术——以 ChatGPT 为例

开源社KAIYUANSHE 近期微信公众号订阅功能做调整啦! 没有被星标的账号在信息流里可能不显示大图了! 快星标⭐我们,就可以及时看到发布的文章啦! STEP01 点击右上角标志 STEP02 点击【设为星标】 缘起 2015 年的时候,我…

对于chatGPT的评价-ChatGPT的内容生成

chatGPT的优缺点 ChatGPT是一种基于深度学习技术的自然语言处理算法,其相比传统的自然语言处理算法具有很多优势。下面是ChatGPT的优点和缺点: 优点: 可适应多种任务:ChatGPT是一个通用的自然语言处理算法,可以适应多…

建立自己的ChatGPT:LLama私有化部署及测试

大语言模型(LLM)现在非常流行,可惜ChatGPT等都不开源。大家没法搭建一个自己的环境来感受以下。幸好Meta开源了LLama,这是LLama的介绍: https://ai.facebook.com/blog/large-language-model-llama-meta-ai/ 具体技术…

windows下免费本地部署类ChatGpt的国产ChatGLM-6B

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 Chat…

ChatGPT是怎么实现的?为什么它这么有效?

ChatGPT 能够自动生成类似于人类写作的文本,这一点非常引人注目,也令人意外。但它是如何实现的?为什么它能够如此出色地生成我们认为有意义的文本?我的目的是在这里概述ChatGPT内部的运行情况,并探讨它能够如此出色地产…

ChatGPT这么强大吗

ChatGPT和它带来的AI时代是一次新的科技革命,AI时代就此拉开序幕,我们必须紧跟时代,否则就会被时代抛弃。本星球分享chatgpt的最前沿应用和实战案例,同时会定期邀请业内大佬做分享。 为什么AI时代很恐怖,现在我们看到的…

< 每日闲谈:你真的了解 “ ChatGPT ” 嘛 ? >

< 每日闲谈&#xff1a;你真的了解 “ ChatGPT ” 嘛 &#xff1f; > &#x1f449; 前言&#x1f449; OpenAI的创立&#x1f449; ChatGPT有何过人之处&#xff1f;> 效果演示 &#x1f449; OpenAI看家之作 — GPT自然语言模型> GPT发展史> 里程碑-GPT3> …

我面试了 ChatGPT 的 PM (产品经理)岗位,它几乎得到了这份工作!!!

如何检测人工智能自信但肤浅的答案? How to detect the AI’s confident but shallow answers? 我面试过很多产品经理候选人,其中一种常规面试形式(在 PM 面试循环中非常标准)是产品Sense面试。受到最近推出的 ChatGPT 和 Jackie Bavaro 的以下推文的启发,我决定面试 Cha…

如何让ChatGPT成为你最佳的模拟面试官

正在上传…重新上传取消 ChatGPT云炬学长 1 人赞同了该文章 如何让ChatGPT成为你最佳的模拟面试官随着技术的不断发展&#xff0c;越来越多的企业开始使用人工智能面试官来帮助筛选候选人&#xff0c;ChatGPT作为其中的一种代表&#xff0c;正在受到越来越多的关注。那么如何…

chatGPT整理的前端面试题目(一)

1.HTML 部分 ​ 1.1HTML基础知识点 Html5 与 html4的区别&#xff1a; html5新增语义化标签&#xff0c;如<header> <nav>等 Html5新增表单控件&#xff0c;如<input type"date"> <input type"color">等 Html5新增多媒体标签&…

ChatGPT 当我面试官的一天

你想过ChatGPT作为面试官会是什么样吗&#xff1f; 各种题库刷了又刷&#xff0c;但是无法进行面试实战&#xff1b;这下终于可以通过ChatGPT来模拟面试了&#xff0c;简直不要太爽了~ 这里只是基础问题&#xff0c;你可以给他输入你的工作经验&#xff0c;所学技能来让他给你…

当我把chatGPT作为Java面试官,它问了我这些问题

向chatGPT提问 面试官&#xff1a;你好&#xff0c;欢迎参加我们的Java面试。请先自我介绍一下。 面试者&#xff1a;非常感谢&#xff0c;我是一名资深Java开发工程师&#xff0c;具有丰富的Java开发经验。我在过去的五年里&#xff0c;主要从事了企业级Java应用的设计、开发…

2023ChatGPT整理回答的Java高级工程师面试题

本文整理了一些 ChatGPT 回答的 java 面试题,希望能够帮助到更多的人! 死锁与活锁的区别,死锁与饥饿的区别? 死锁和活锁都是多线程并发编程中的问题,它们的区别主要在于线程是否能够继续执行。 死锁指的是两个或以上进程因竞争资源而造成的一种互相等待的现象。当多个线…

使用ChatGPT面向岗位制作简历、扮演面试官

探索ChatGPT&#xff0c;协助工作学习创作。公众号「阿杰与AI」回复AI&#xff0c;加入社群&#xff0c;一同探讨&#xff0c;一同成长&#xff0c;比他人更进一步。 我们一起维护一个完全免费开源知识库。 1.AI、OpenAI、MidJourney发展史2.ChatGPT们对今后社会生活的影响3.目…

当我用ChatGPT面试项目经理,真有趣

早上好&#xff0c;我是老原。 上周chatGPT4正式发布&#xff0c;又掀起了一股热潮。 百度也不甘落后&#xff0c;文心一言紧随其后&#xff0c;虽然并没有激起太大的浪花&#xff0c;但不妨碍打工人们的“饭碗焦虑“也变得越来越大。 尤其是当越来越多的人亲自体验了GPT后&…

【闲聊】我用ChatGPT参加了大数据面试

用Chat GPT试了试面试题&#xff0c;回答得比较简单。 问&#xff1a;你可以以应聘者的身份参加一场大数据程序员面试吗 答&#xff1a;可以 &#xff0c;如果您符合面试要求&#xff0c;可以参加大数据程序员面试。 问&#xff1a;那么为什么你要投递大数据开发这个岗位 答&am…

用chatGPT打造你的专属面试题库

go面试题库包含了go应聘者分享的他们在各个公司面试题&#xff0c;共分为有九大题型&#xff0c;超过六千道题目(暂无答案&#xff0c;可以使用chatGPT自动作答)&#xff0c;超过百家公司(由于敏感&#xff0c;去掉了公司信息)&#xff0c;面试题库管理界面主要有以下功能&…

让ChatGPT帮我准备面试题

背景 最近大家伙找工作都挺难的吧&#xff0c;反正我是挺难的。将近一个月了&#xff0c;简历都投烂了&#xff0c;boss都是【已读】。倒是有一两家面试&#xff0c;有一家感觉我自己没发挥好&#xff0c;有点紧张本来知道的东西面试的时候就忘了。而且在面试之前我也没做什么准…

用ChatGPT面试杀疯了,拿下大厂

集中投了几家公司后&#xff0c;便开始面试&#xff0c;为了节约时间&#xff0c;我选择使用Chatgpt辅助面试&#xff0c;果然是最佳私人助手&#xff0c;就像多了一个贴心秘书&#xff01; 1、将想要应聘公司的岗位要求&#xff0c;jd复制到Chatgpt 2、问模拟面试官可能问到的…

用ChatGPT去面试简直开挂

引语&#xff1a;大家好我们是权知星球&#xff0c;开启你独特的知识星际之旅 请注意&#xff01;这个男人正在进行一场新员工面试。然而&#xff0c;他并不知晓&#xff0c;与他面对面坐着的那个人所作出的回答&#xff0c;全都是由人工智能所生成的&#xff01; 面试官提出问…