chatgpt在复杂问题的回答表现

article/2024/7/27 15:37:35

2023年东南大学论文:Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions

代码库已经无法访问了:https://github.com/tan92hl/Complex-Question-Answering- Evaluation-of-ChatGPT

1.简介

复杂问题的回答(KB-based CQA)是一种很有挑战性的KBQA任务,希望模型能具备compositional reasoning的学习能力,比如通过多步推理、进行集合操作或者其他复杂推理得到最终的答案。

如何去评判ChatGPT的回答表现呢?一方面,该文章采用的方法是,对测试问题进行打多个标签:答案类型(语法分析获得),推理操作,语种(数据集带了),这些标签每一个都可以助于分析ChatGPT的推理能力,标签间的组合也有助于发现潜在的问答场景和ChatGPT的表现情况。另一方面,沿用了checklist的测试方法对模型推理任务执行情况、推理过程可信服进行了测试。

KBQA数据集有很多,格式也不尽相同,这里选择的是基于SPARQL格式的数据集,并利用关键字来识别可能用于回答的推理操作。

结果简述:

  • 单语问题的回答上,ChatGPT除了数字和时间类的,其他表现都是最好的;如果问题需要多步推理或者基于事实的推理(这里我不知道start-shape是啥意思),ChatGPT表现不如GPT3.5;多语言问答上,在少数据源的语言上表现最好
  • checklist测试上,ChatGPT在复杂问题回答上有几个问题:在单推理类型的任务表现不好(MFT结果);和传统的KBQA相比,ChatGPT在相似问题上表现不稳定(INV结果);ChatGPT并不能按照预期prompt生成相应的结果(DIR结果)

2.相关工作

2.1 LLM和prompt

简单介绍了一下GPT3及3.5、T5、BERT。这里不再赘述。

2.2 LLM的评估

之前最全面的评估要数HELM了(Holistic Evaluation of Language Models,该文为大模型评估方向的综述论文,由Percy Liang团队打造,将2022年四月份前的大模型进行了统一的评估。其中,被评估的模型包括GPT-3,InstructGPT等。在经过大量的实验之后,论文提出了一些可供参考的经验总结。)

和HELM类似,本文提出了自己的评价方法(前面说过了,对测试问题进行打多个标签,然后基于标签进行评估)

2.3 NLP模型的黑盒测试

这里用了CheckList的方案,每一项评估包括三项:最小功能测试(MFT)不变性测试(INV)定向期望测试(DIR)

1. 最小功能测试(MFT, minimum functionality test): 类似软工中的“单元测试”,用大量简单但具有极强针对性的样例进行测试。

2. 不变性测试(INT, invariance test): 对原有数据做一些不影响结果的轻微变化。比如拼写错误或者语法错误。

3. 定向期望测试(DIR, directional expectation test): 也是对原有数据做少许改动。改动后,模型的结果应该朝一个期望的方向变化。比如“明天星期六,我很{开心}”,“周末要加班,我很{难过}”

接下来的问题就是,有那么多测试要进行,如何针对每一项测试大规模生成测试样例呢?根据checklist原文的说法,测试样例可以完全“无中生有”,也可以通过改动已有数据得到。而作者们已经给出了强大的开源工具,帮助你快速生成测试样例。整个工具完全可视化,操作性极强。

本文采用的是利用CoT prompting来生成INV和DIR的测试用例。

3.本文提出的LLM评估框架

之前在简介也提到了,整个评估框架包含两部分,第一部分是通过试用多标签来描述一个测试问题,第二部分是针对每一个标签,测试模型的功能性、鲁棒性和控制性。、

3.1 特征驱动的多标签问题打标

原因:现在数据集使用不同标签来定义回答类型、推理类型等,为了可以进行统一的评估,需要对这些特征类型进行标准化。本文设计了三类标签:回答类型(问题涉及的话题)、推理类型(获得答案的方法)、语言类型(描述问题的语种)。一般一个问题只包含一个回答类型。

  1. 参考NER类型定义、英文问题类型、现有KBQA数据集给出的回答类型,本文最终选定8类作为回答类型。
  2. 基于KBQA数据集提供的推理类型,本文选了8个
  3. 语言标签使用了数据集中的标签

3.2 衡量方法

3.2.1 答案匹配策略

背景:ChatGPT生成的是句子,标答给的是短语

匹配方法:

对于日期、布尔类型、数字的匹配,直接和标答进行匹配。否则,按照如下方式:

基于提取的匹配:

  1. 将ChatGPT生成的句子进行语法解析,提取出名词短语,然后按照[名词,名词短语,短句]升序排列
  2. 对标答进行扩充,包括同义、多语言、别名

基于向量的匹配:

        如果不能基于名词短语匹配,就是用向量相似度算匹配程度

 3.2.2 基于prompt的checklist策略

仿照了checklist的指标:MFT、INV、DIR。

MFT示例如下图(SetOperation和Counting的例子不都一样???)

INV:本文通过随机把句子中的词拼错、同义词改写

DIR:首先,替换了问题中与推理相关的短语,要求模型使用 SPARQL 查询生成答案,以观察 ChatGPT 输出中的逻辑操作是否与给出的修改相对应。其次,将包含答案类型的提示添加到输入中,以检查 ChatGPT 是否可以根据提示控制输出答案类型。第三,从CoT中得到启发,使用通用的多轮提示重写让Chat-GPT通过“逐步”过程获得答案的测试用例,以观察ChatGPT对不同类型问题的CoT提示的敏感性.

 4.参考文献

  1. 解决的是NLP领域模型评测问题的论文解读-夕小瑶
  2. ALC2020会议专辑 | ACL 2020最佳论文:一种全新的NLP模型测试方法CheckList - 知乎


http://chatgpt.dhexx.cn/article/0Ar2Z8nH.shtml

相关文章

ChatGPT几个有趣的玩法

文章目录 1、开启一个VM2、以……的风格发文3、自动写代码用脚本编写一个多进程ping主机的程序 3、用chatGPT学习loki4、客制化脚本生成一个自动建立软连接的脚本 5、vscode 插件 1、开启一个VM 在caht中输入一下内容 I want you to act as a Linux terminal. I will type co…

关于写vscode ChatGPT插件遇到的一些问题

出于对技术的专研想还原ChatGPT里面的一些交互,中间遇到遇到一些小问题做下总结 一、还原里面的富文本展示 chatgpt返回结果是这样的 "冒泡排序是一种简单直观的排序算法,它重复地比较相邻的两个元素,如果顺序错误就交换它们的位置&am…

当你问ChatGPT一些奇奇怪怪的问题

ChatGPT热度好像已经没那么高了,貌似也蹭不到什么流量了,不过嘛,玩了一下好玩的还是得记录一下。每个问题用标题给出,就可以当目录了。同时附上截图,想直接看图的伙伴可以直接看图。回答以绿色背景的形式给出。 觉得有…

如何高效的向ChatGPT提问

爱因斯坦在《物理学的进化》一书中指出:“提出一个问题比解决一个问题更为重要。因为解决一个问题也许是一个数学上或实验上的技巧,而提出新的问题,新的可能性,从新的方向看旧问题,则需要创造性的想象力,而…

[chatGPT问题解决]An error occurred. If this issue persists please contact us through our help center at

遇到问题 在使用chapGPT时,有时会发现报这样的错误: An error occurred. If this issue persists please contact us through our help center at help.openai.com. 解决问题 1、如果Windows电脑开启了“病毒和威胁防护”,需要关掉它。 2、…

教程-ChatGPT提问失败问题及对应解决方案

由 OpenAI 实验室发布的 ChatGPT 对话式大型语言模型非常受欢迎。无论问什么奇怪的问题,ChatGPT都能轻松与人类进行对话。在使用 ChatGPT 的时候,可能会遇到各种问题,下面总结了可能出现的对话错误及相应的解决方法。 一、使用注意 由于太火…

ChatGPT常见的报错解决方法(全网最全解决方法)

因为最近在使用ChatGPT的过程中,时常会出现一些错误提示,为了方便自己快速解决问题,所以也搜集了一些其他博主的解决方法,以下是整理的内容。 目录 1、拒绝访问 2、Access denied错误 3、We have detected suspicious 错误 4…

Chatgpt到底有多牛?

在人工智能领域, ChatGPT可以说是最具影响力的 AI之一。从全球最大的中文搜索引擎百度,到中国最大的新闻聚合网站人民日报,再到中国最大的知识问答网站知乎, ChatGPT都有不俗的表现。而在 ChatGPT被美国《时代周刊》评为“人工智能…

#中国版chatGPT来了# 2023年开年,

ChatGPT及AIGC概念在全球爆火,引得一系列相关企业股价大幅上涨,市场落在百度、360等搜索引擎身上的目光明显增多 ChatGPT是OpenAI开发的人工智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5架构的大型语言模型并以强化学习训练。…

中国版ChatGPT来了!快跟我一起申请文心一言吧

随着ChatGPT的快速进化吸引了全球网友的眼球 国内厂商也纷纷推出了相似的产品 其中百度推出的“文心一言”已经正式开始的相关的测试 很多人都在问 文心一言入口在哪? 文心一言邀请码在哪可以领? 文心一言怎么申请内测? 自从文心一言发…

【关于ChatGPT的30个问题】14、ChatGPT在中国是否被禁用了?/ By 禅与计算机程序设计艺术

14、ChatGPT在中国是否被禁用了?为什么? 目录 14、ChatGPT在中国是否被禁用了?为什么? ChatGPT是否被禁用?

【ChatGPT】中国支付清算协会倡议支付行业从业人员谨慎使用ChatGPT

ChatGPT 1. 近期热议2. ChatGPT是什么3. ChatGPT要谨慎使用4. 如何规范使用 1. 近期热议 近期,ChatGPT等工具引起各方广泛关注,已有部分企业员工使用ChatGPT等工具开展工作。但是,此类智能化工具已暴露出跨境数据泄露等风险。为有效应对风险…

中国版的ChatGPT,你最看好谁?

一、百度:文心一言升级中,未来支持开源 3月16日,百度正式推出国内首款生成式AI产品“文心一言”,可支持文学创作、文案创作、数理推算、多模态生成等功能。 “文心一言”基于全栈自研的AI基础设施进行学习和训练: ①…

中国版ChatGPT来了! 如何解读ChatGPT将带来的技术变革

最近这段时间,ChatGPT真的是太火了!各平台都在铺天盖地式的宣传,相信在这么些天的宣传中,大家也对ChatGPT有了一个大概的了解,我们这边也就简单介绍一下。据ChatGPT自我介绍,它是一款预训练语言模型&#x…

复旦发布类ChatGPT模型Moss;Linux 6.2 发布|极客头条

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&…

ChatGPT-AI模型框架研究

GPT开启AI大模型时代,国内外大厂发力布局,商业化空间加速打开: 1、数据、算法、模型三轮驱动AI发展,大模型优势显著,成为AI主流方向; 2、GPT开启千亿参数级AI大模型时代,语言、视觉、科学计算等…

分享一个 ChatGPT可免费使用的AI助手

现在,多种行业都已经开始广泛地采用聊天机器人ChatGPT。有一个与之相关的国内免费网站可以供大家使用——多御浏览器。这是一款安全快速、高效稳定的浏览器。 该网站客户端软件中,有很多实用工具,其中之一就是当下非常流行的 ChatGPT&#x…

CHATGPT制作AI绘画

CHATGPT是一种基于机器学习和自然语言处理技术的人工智能应用。它可以生成自然语言文本,并且可以通过训练来学习各种不同的技能。 其中,CHATGPT制作AI绘画指的是将CHATGPT应用于绘画领域,训练CHATGPT以生成艺术作品。 CHATGPT生成绘画的基本…

ChatGPT新一代人工智能

ChatGPT新一代人工智能 介绍ChatGPT ChatGPT是由OpenAI开发的一种大型语言模型,它能够通过对语言的自然处理来回答问题、产生文本和执行其他的任务。 ChatGPT是基于GPT-3(Generative Pre-training Transformer 3)模型构建的,GPT-…

人工智能之ChatGPT

前言 近日,美国OpenAI研发的聊天机器人程序ChatGPT爆火,相关话题多次引发热议。 ChatGPT是啥? 简单来说,ChatGPT是一个智能聊天机器人,但是它的功能却远不止聊天 利用机器学习算法,ChatGPT可以利用人工智…