训练中文版chatgpt

article/2024/7/21 5:08:54

文章目录

  • 1. 斯坦福的模型——小而低廉:Alpaca: A Strong Open-Source Instruction-Following Model
  • 2. Meta 模型:LLaMA:open and efficient foundation language models
  • 3.ChatGLM
  • 4.斯坦福开源机器人小羊驼Vicuna,130亿参数匹敌90%ChatGPT
    • 概述
    • 训练
    • 如何评估聊天机器人?
    • 局限性

1. 斯坦福的模型——小而低廉:Alpaca: A Strong Open-Source Instruction-Following Model

原文链接:https://mp.weixin.qq.com/s/PqKue-D7HTne2gC7UzT4Xg
官网地址:https://crfm.stanford.edu/2023/03/13/alpaca.html
模型入口:https://crfm.stanford.edu/alpaca
github地址:https://github.com/tatsu-lab/stanford_alpaca

为了提高模型性能,来自斯坦福的研究者帮助其完成了指令微调的工作,训练了一个名为 Alpaca(羊驼)的 70 亿参数新模型(基于 LLaMA 7B)。具体来说,他们让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循(instruction-following)样本,以此作为 Alpaca 的训练数据。实验结果表明,Alpaca 的很多行为都与 text-davinci-003 类似。也就是说,只有 7B 参数的轻量级模型 Alpaca 性能可媲美 GPT-3.5 这样的超大规模语言模型。

Alpaca是由Meta的LLaMA 7B微调而来的全新模型,仅用了52k数据,性能约等于GPT-3.5。关键是训练成本奇低,不到600美元。在8个80GB A100上训练了3个小时,不到100美元;生成数据使用OpenAI的API,500美元

但是,Alpaca是不能用于商业用途,只能用于学术研究。具体原因有三:

  1. LLaMA是一个非商业许可的模型,Alpaca是基于该模型生成的;

  2. 指令数据是基于OpenAI的text-davinci-003,其使用条款禁止开发与OpenAI竞争的模型;

  3. 没有设计足够多的安全措施,所以Alpaca还没有做好广泛使用的准备

除此之外,斯坦福研究人员总结了Alpaca未来研究会有三个方向。

评估:
从HELM(语言模型的整体评估)开始捕捉更多的生成性、遵循指令的场景。
安全:
进一步研究Alpaca的风险,并使用自动红队分组、审计和适应性测试等方法提高其安全性。
理解:
希望能更好地理解模型能力是如何从训练方法中产生的。需要基础模型的什么属性?扩大模型规模时会发生什么?需要指令数据的什么属性?在GPT-3.5上,除了使用自生成指令,还有什么替代方法?

2. Meta 模型:LLaMA:open and efficient foundation language models

论文地址:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

2023年2月底,Meta推出了最新的语言模型LLaMA,参数量分别是70亿(7B)、130亿(13B)、330亿(33B)和650亿(65B)。评测结果显示,其13B版本便可以与GPT-3相媲美。

3.ChatGLM

原文链接:https://hub.baai.ac.cn/view/24832

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

具体来说,ChatGLM-6B具备以下特点:

1、充分的中英双语预训练:ChatGLM-6B在1:1比例的中英语料上训练了1T的token量,兼具双语能力。
2、优化的模型架构和大小:吸取GLM-130B训练经验,修正了二维RoPE位置编码实现,使用传统FFN结构。6B(62亿)的参数大小,也使得研究者和个人开发者自己微调和部署ChatGLM-6B成为可能。
3、较低的部署门槛:FP16 半精度下,ChatGLM-6B 需要至少 13 GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8) 和 6GB(INT4),使得 ChatGLM-6B 可以部署在消费级显卡上。
4、更长的序列长度:相比 GLM-10B(序列长度1024),ChatGLM-6B序列长度达2048,支持更长对话和应用。
5、人类意图对齐训练:使用了监督微调(Supervised Fine-Tuning)、反馈自助(Feedback Bootstrap)、人类反馈强化学习(Reinforcement Learning from Human Feedback)等方式,使模型初具理解人类指令意图的能力。输出格式为markdown,方便展示。

4.斯坦福开源机器人小羊驼Vicuna,130亿参数匹敌90%ChatGPT

原文链接:https://hub.baai.ac.cn/view/25175
论文题目:Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality

  • 根据用GPT-4进行的有趣和非科学的评估。需要进一步严格的评估。

我们介绍了Vicuna-13B,这是一个开源的聊天机器人,通过对从ShareGPT收集的用户共享对话进行微调的LLaMA训练。以GPT-4为评判标准的初步评估显示,Vicuna-13B达到了OpenAI ChatGPT和Google Bard 90%*以上的质量,同时在90%*以上的情况下超过了LLaMA和Stanford Alpaca等其他模型的表现。训练Vicuna-13B的成本约为300美元。训练和服务代码,以及在线演示,都是公开的,可用于非商业用途。

概述

大型语言模型(LLM)的快速发展彻底改变了聊天机器人系统,产生了前所未有的智能水平,如OpenAI的ChatGPT所示。然而,尽管其性能令人印象深刻,但 ChatGPT 的培训和架构细节仍然不清楚,阻碍了该领域的研究和开源创新。受Meta LLaMA和斯坦福Alpaca项目的启发,我们推出了Vicuna-13B,这是一款开源聊天机器人,由增强的数据集和易于使用的可扩展基础架构提供支持。通过根据从 ShareGPT.com 收集的用户共享对话微调LLaMA基础模型,Vicuna-13B与斯坦福Alpaca等其他开源模型相比,表现出了有竞争力的性能。这篇博文提供了对Vicuna-13B性能的初步评估,并描述了其培训和服务基础设施。我们还邀请社区与我们的在线演示互动,以测试此聊天机器人的功能。

在这里插入图片描述
图 2 提供了我们工作的概述。首先,我们从 ShareGPT.com 收集了大约 70K 次对话,这是一个用户可以分享他们的 ChatGPT 对话的网站。接下来,我们增强了 Alpaca 提供的训练脚本,以更好地处理多轮对话和长序列。培训是在一天内在 8 个 A100 GPU 上使用 PyTorch FSDP 完成的。为了提供演示,我们实现了一个轻量级的分布式服务系统。我们通过创建一组 80 个不同的问题并使用 GPT-4 来判断模型输出,对模型质量进行了初步评估。为了比较两个不同的模型,我们将每个模型的输出组合到每个问题的单个提示中。然后将提示发送到 GPT-4,后者评估哪个模型提供更好的响应。LLaMA,Alpaca,ChatGPT和Vicuna的详细比较如下表1所示

训练

Vicuna是通过使用公共 API 从 ShareGPT.com 收集的大约 70K 个用户共享对话微调 LLaMA 基础模型来创建的。为了确保数据质量,我们将HTML转换回markdown并过滤掉一些不合适或低质量的样本。此外,我们将冗长的对话划分为适合模型最大上下文长度的较小部分。

我们的训练食谱建立在斯坦福大学的Alpaca之上,并进行了以下改进。

内存优化:为了使 Vicuna 能够理解长上下文,我们将Vicuna的最大上下文长度从 512 扩展到 2048,这大大增加了 GPU 内存需求。我们通过利用梯度检查点和闪光注意力来解决内存压力。
多轮对话:我们调整训练损失以考虑多轮对话,并仅根据聊天机器人的输出计算微调损失。
通过竞价型实例降低成本:40 倍大的数据集和 4 倍的训练序列长度对训练费用提出了相当大的挑战。我们采用 SkyPilot 托管的 Spot 实例,通过利用具有自动恢复功能的更便宜的 Spot 实例来降低成本,以实现抢占和自动区域切换。该解决方案将训练 7B 模型的成本从 500 美元削减到 140 美元左右,将 13B 模型从大约 1 美元削减到 300 美元。
服务

如何评估聊天机器人?

评估人工智能聊天机器人是一项具有挑战性的任务,因为它需要检查语言理解、推理和上下文感知。随着人工智能聊天机器人变得越来越先进,目前的开放基准可能不再足够。例如,斯坦福大学(Alpaca)中使用的评估数据集,自我指导,可以由SOTA聊天机器人有效地回答,这使得人类难以辨别性能的差异。更多的限制包括训练/测试数据污染以及创建新基准的潜在高成本。为了解决这些问题,我们提出了一个基于 GPT-4 的评估框架来自动化聊天机器人性能评估。

首先,我们设计了八个问题类别,如费米问题、角色扮演场景和编码/数学任务,以测试聊天机器人性能的各个方面。通过仔细的快速工程,GPT-4 能够生成基线模型难以解决的各种具有挑战性的问题。我们为每个类别选择十个问题,并从五个聊天机器人中收集答案:LLaMA,Alpaca,ChatGPT,Bard和Vicuna。然后,我们要求 GPT-4 根据有用性、相关性、准确性和细节对其答案的质量进行评分 。我们发现 GPT-4 不仅可以产生相对一致的分数,还可以详细解释为什么给出这样的分数(详细示例链接)。我们还注意到 GPT-4 不太擅长判断编码/数学任务。(我觉得这一部分应该是最有意思的部分,针对快速发展的AI,怎么设计评估?

在这里插入图片描述
图 3 显示了所有基线和Vicuna之间的比较结果。在超过4%的问题中,GPT-90更喜欢Vicuna而不是最先进的开源模型(LLaMA,Alpaca),并且它实现了与专有模型(ChatGPT,Bard)的竞争性能。在 45% 的问题中,GPT-4 将Vicuna的回答评为优于或等于 ChatGPT,Vicuna的总分达到 ChatGPT 的 92%(见表 2)。尽管取得了进步,但这些聊天机器人仍然面临局限性,例如在基本的数学问题上挣扎或编码能力有限。
在这里插入图片描述
虽然这个提议的评估框架展示了评估聊天机器人的潜力,但它还不是一种严格或成熟的方法,因为大型语言模型容易产生幻觉。为聊天机器人开发一个全面、标准化的评估系统仍然是一个悬而未决的问题,需要进一步研究。

局限性

我们注意到,与其他大型语言模型类似,Vicuna也有一定的局限性。例如,它不擅长涉及推理或数学的任务,并且在准确识别自己或确保其输出的事实准确性方面可能存在局限性。此外,它尚未经过充分优化以保证安全性或减轻潜在的毒性或偏差。为了解决安全问题,我们使用 OpenAI 审核 API 在我们的在线演示中过滤掉不适当的用户输入。尽管如此,我们预计Vicuna可以作为未来研究的开放起点,以解决这些限制。


http://chatgpt.dhexx.cn/article/Rf6nIgtt.shtml

相关文章

ChatGPT中文版重装上阵

ChatGPT中文版重装上阵 近日,AI模型市场联手OpenAI推出了新版ChatGPT,这是一款面向聊天机器人开发的自然语言处理(NLP)模型。ChatGPT是一款非常强大的NLP模型,可以帮助开发者构建会话式聊天机器人,它可以更…

ChatGPT有中文版吗?

2023年最热的技术话题是什么?毫无疑问是人工智能,特别是AIGC领域。其中又以ChatGPT为最热门产品。ChatGPT是一个革命性的人工智能产品,能对我们的生产生活产生巨大的影响。然而,有网友担心ChatGPT是西方开发的AI工具,能…

【ChatGPT中文版来了,这就是你想要的!】

ChatGPT中文版来了,这就是你想要的! 写在前面 最近在逛论坛时,发现一款不错的插件——Vscode ChatGPT。据介绍,这是ChatGPT的中文插件,首次安装插件之后,可以自动启用国内模式,不需要任何操作…

CHATGPT有中文在线版本

CHATGPT是一个在线的聊天机器人,它可以回答你的问题、提供信息和进行一些简单的对话。 下面是使用CHATGPT的步骤: 1. 打开网站 进入CHATGPT的中文版官方网站:https://chatgpt.com/zh-cn/ 2. 输入问题 在对话框中输入问题或话题&#xff…

chatgpt中文设置流程

对于ChatGPT来说,中文设置是非常重要的,因为只有正确设置了中文模型,它才能够理解和回答中文输入。下面我将介绍一些在ChatGPT中设置中文的方法。 选择中文预训练模型 首先,你需要选择适合中文场景的预训练模型。目前市面上已经…

Chat GPT是什么?初学怎么使用Chat GPT?

1.Chat GPT介绍 ChatGPT的全称是"Chat Generative Pre-training Transformer",中文意思是“对话生成预训练变形器”。它是一种基于预训练的自然语言处理模型,旨在实现智能对话生成和理解。通过在大量文本数据上进行预训练,ChatGPT可…

火爆全网的ChatGPT真的有那么强嘛?

📋 个人简介 💖 作者简介:大家好,我是阿牛,全栈领域优质创作者。😜📝 个人主页:馆主阿牛🔥🎉 支持我:点赞👍收藏⭐️留言&#x1f4d…

ChatGPT被玩坏了

大家好,欢迎来到 Crossin的编程教室 ! 体验了一下最近火出圈的 ChatGPT,聊聊使用感受。 ChatGPT让我下岗? 原理就不展开说了,因为我也不懂,写出来估计大家也都看不懂,就简单复制一段网上的介绍…

chatgpt怎么去玩?解析各种用途和强大的功能

关于chatgpt怎么玩?他的一些原理以及玩法,相信大家都是挺好奇的吧,毕竟这个新的人工智能和以往我们玩过的,是完全不一样的,它具备更多的可玩性,而且具备有一定的学习能力,这就造就了它的强大&am…

ChatGPT都有些什么好玩的玩法?

ChatGPT是一个智能聊天机器人,可以进行多种有趣的玩法,以下是其中一些: 1. 问答游戏:ChatGPT可以回答各种问题,你可以和它玩问答游戏,看看谁更聪明。 2. 聊天互动:ChatGPT可以进行自然语言聊天…

普通人玩转chatGPT人工智能

一、它是什么 最近几天OpenAI发布的ChatGPT聊天机器人火出天际了,连着上了各个平台的热搜榜。这个聊天机器人最大的特点是模仿人类说话风格同时回答大量问题有人说ChatGPT是真正的人工智能,它不仅能和你聊天,还是写小作文,回答问…

ChatGPT Prompt工程浅谈

ChatGPT 火爆出圈了,有些人惊叹于它的能力,当然也有部分人觉得也就那样。这就不得不提 Prompt 了,据说【相关文献1】,ChatGPT 效果好不好完全取决于你的 Prompt,“看来 Propmt 也成一个技术活儿了”。 当我这么想的时候…

ChatGPT初体验

1.chatGPT是什么? ChatGPT 是一种由 OpenAI 训练的大型语言模型。它可以通过学习大量文本数据,来掌握语言结构和语义,生成高质量的人类可读文本。 2.chatGPT可以用来做什么? ChatGPT不单是聊天机器人,它还能进行撰写邮…

ChatGPT科研神器:论文翻译润色一键搞定,还能帮你读代码 | GitHub热榜

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI 用ChatGPT正经搞科研,现在有更方便的工具啦。 不仅自带中英文翻译能力,能一键帮你写摘要。 一键分析润色文章。 甚至一整个项目的代码,都能直接扔进去让ChatGPT帮你读,再也不怕老哥们不写…

ChatGPT在源代码分析中可靠吗?

引文 ChatGPT自发布以来,它在各行各业都掀起了一股学习热潮。由于其惊人的语言理解和生成能力,ChatGPT已经备受全世界瞩目。它在智能对话、翻译、摘要、文本生成等领域中展现出了非凡的能力,让人们对其充满了好奇、敬畏和赞叹之情&#xff0…

代码看不懂?ChatGPT 帮你解释,详细到爆!

偷个懒,用ChatGPT 帮我写段生物信息代码 如果 ChatGPT 给出的的代码不太完善,如何请他一步步改好? 网上看到一段代码,不知道是什么含义?输入 ChatGPT 帮我们解释下。 生信宝典 1: 下面是一段 Linux 代码,请…

Paper简读 - ChatGPT相关的InstructGPT

欢迎关注我的CSDN:https://blog.csdn.net/caroline_wendy 本文地址:https://blog.csdn.net/caroline_wendy/article/details/128866056 发表于NLP会议:NeurlPS,EMNLP EMNLP: Empirical Methods in Natural Language Processing&a…

ChatGPT  一本正经的胡说八道 那也看看原理吧

最近,ChatGPT横空出世。这款被马斯克形容为“强大到危险”的AI,不但能够与人聊天互动,还能写文章、改代码。于是,人们纷纷想让AI替自己做些什么,有人通过两分钟的提问便得到了一篇完美的论文,有人希望它能帮…

ChatGPT辅助处理excel表格数据

选择使用方法 找现成的工具。试了两个,有各种问题。比如比如北大团队出品的ChatExcel等。我的表格列比较多,上传文件后需要砍掉一部分。输入几个命令以后就识别不了了。即使识别到了,输出也受限制,还不如手工处理。另外&#xff…

全新视角!带你一文读懂ChatGPT!

最了解你的人不是你的朋友,而是你的敌人。 ——《东邪西毒》 目录 什么是ChatGPT? ChatGPT为什么会突然爆红网络? ChatGPT能帮助我们做什么? 获取源码?私信?关注?点赞?收藏&…