基于斯坦福大学开源,从零搭建chatGPT

article/2025/4/21 11:03:22

下载地址:

https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T

预处理仓库:https://github.com/togethercomputer/RedPajama-Data

复刻ChatGPT!斯坦福等开启红睡衣计划,开源1.2万亿token训练集

【新智元导读】从零打造ChatGPT,AI从业者大团结!

Meta AI开源的大羊驼LLaMA模型彻底点燃了开源社区的热情,并在此基础上相继开发出了各种类ChatGPT的羊驼Alpaca, Vicuna等。

但Meta只是开源了LLaMA的权重,训练用到的数据集并没有开源出来,对于那些想从头开始训练LLaMA的从业者来说,目前还没有开源方案。

最近,由Ontocord.AI,苏黎世联邦理工学院DS3Lab,斯坦福CRFM,斯坦福Hazy Research 和蒙特利尔学习算法研究所的宣布开启「红睡衣」(RedPajama)计划,旨在生成可复现、完全开放、最先进的语言模型,即从零一直开源到ChatGPT!

下载地址:

https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T

预处理仓库:https://github.com/togethercomputer/RedPajama-Data

「红睡衣」开源计划总共包括三部分:

1. 高质量、大规模、高覆盖度的预训练数据集;

2. 在预训练数据集上训练出的基础模型;

3. 指令调优数据集和模型,比基本模型更安全、可靠。

目前红睡衣计划中的第一部分,即预训练数据集RedPajama-Data-1T已开源,包括七个子集,经过预处理后得到的token数量大致可以匹配Meta在原始LLaMA论文中报告的数量,并且数据预处理相关脚本也已开源。

完整的RedPajama-Data-1T数据集需要的存储容量为压缩后3TB,解压后5TB,有条件、有网速的小伙伴可以开始搞起来了!

目前开发团队正在橡树岭领导计算设施(OLCF)的支持下开始训练模型,预计几周后即可开源。

通过OpenChatKit,研究人员已经收到了数十万条高质量的自然用户指令,将用于发布 RedPajama 模型的指令优化版本。

复刻LLaMA

2023年2月27日,Meta推出LLaMa并发布了相关论文。

论文链接:https://arxiv.org/pdf/2302.13971.pdf

LLaMa实际上是一组基础语言模型的统称,其参数范围从70亿到650亿不等,其中LLaMA-13B(130亿参数)版本甚至在大多数基准测试中都优于1750亿参数的GPT-3;最大的LLaMA-65B和Chinchilla-70B和PaLM-540B相比也不落下风。

和之前的大模型不同的是,LLaMa完全使用「公开数据集」就达到了SOTA,并不存在其他模型中「不可告人」的秘密,无需使用专用或只存在于虚空中的数据集。

具体使用的数据集和预处理操作如下。

English CommonCrawl-占比67%

使用CCNet pipeline对五个CommonCrawl dumps(2017-2020年)进行预处理,删除重复的行,并用fastText线性分类器进行语言分类,去除非英语页面,并用ngram语言模型过滤低质量内容。

还训练了一个线性模型来对维基百科中用作参考文献的页面与随机采样的页面进行分类,并去除未被分类为参考文献的页面。

C4-占比15%

在探索实验中,研究人员观察到使用多样化的预处理CommonCrawl数据集可以提高性能,所以将公开的C4数据集纳入我们的数据。

C4的预处理也包含重复数据删除和语言识别步骤:与CCNet的主要区别是质量过滤,主要依靠启发式方法,如是否存在标点符号,以及网页中的单词和句子数量。

Github-占比4.5%

使用谷歌BigQuery上的GitHub公共数据集,只保留在Apache、BSD和MIT许可下发布的项目。

然后用基于行长或字母数字字符比例的启发式方法过滤了低质量的文件,并用正则表达式删除了HTML boilerplate(如<header>等)。

最后在文件层面上对所生成的数据集进行重复计算,并进行精确匹配。

维基百科-占比4.5%

数据集中添加了2022年6月至8月期间的维基百科dumps,涵盖20种语言,包括使用拉丁字母或西里尔字母的语言,具体为bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, uk;然后对数据进行预处理,以去除超链接、评论和其他格式化的html模板。

Gutenberg and Books3-占比4.5%

训练数据集中包括两个书籍相关的语料库,Gutenberg Project为公共领域的书籍;ThePile中Books3部分是一个用于训练大型语言模型的公开数据集。

预处理操作主要是删除重复内容超过90%的书籍。

ArXiv-占比2.5%

通过处理arXiv的Latex文件将科学数据添加到训练数据集中,删除了第一节之前的所有内容,以及书目;还删除了.tex文件中的注释,以及用户写的内联扩展的定义和宏,以提高不同论文的一致性。

Stack Exchange-占比2%

Stack Exchange是一个高质量问题和答案的网站,涵盖了从计算机科学到化学等不同领域。保留了28个最大网站的数据,删除了文本中的HTML标签,并按分数(从高到低)对答案进行了排序。

分词器(Tokenizer)

根据SentencePiece的实现使用字节对编码(byte-pair-encoding,BPE)算法对数据进行分词,其中连续的数字被分割成单个数字。

最终整个训练数据集在分词后获得了大约1.4T的tokens,除了维基百科和图书数据外,其他的数据在训练期间只使用一次,总共进行了约两个epochs

参考资料:

https://www.together.xyz/blog/redpajama


http://chatgpt.dhexx.cn/article/Ae6FOkEa.shtml

相关文章

代搭建开发chatgpt

ChatGPT是由OpenAI开发的一款自然语言处理模型&#xff0c;而且它已经预训练好了。基于它开发ChatGPT应用程序需要以下步骤&#xff1a; 准备环境&#xff1a;安装Python3和相关的库&#xff0c;如TensorFlow、Keras等&#xff0c;并下载预训练的ChatGPT模型。 数据准备…

如何在windows docker上搭建本地ChatGPT,不需要翻墙

一、安装windows docker 详情请看&#xff1a;安装Windows docker与VSCode docker、Dev Containers和Remote - SSH插件_kexiaohua4393的博客-CSDN博客 二、拉取项目 打开docker并以管理员身份打开cmd&#xff0c;输入docker pull pengzhile/pandora github项目地址&#xf…

用 Express 和 Vue3 搭建的 ChatGPT 演示网页

ChatGPT的强大&#xff0c;在此不再介绍。Openai提供了接入的API&#xff0c;目前市面上见到的接入产品有公众号、IM、vscode插件、chrome插件等&#xff0c;如何搭建一个ChatGPT的演示网页呢&#xff1f; 感谢社区大佬的开源项目&#xff1a; https://github.com/Chanzhaoyu/…

chatgpt如何搭建一个自己的网站,请看源码。

找了一套chatgpt搭建的源码&#xff0c;修改自己的key就能使用 效果如下&#xff0c;再也不用去挤外网里&#xff0c;舒服。 源码 ➕ wengjunda 可以拿取&#xff0c;是php的 key的申请 尾声 我们就已经能通过服务器访问刚刚搭建的 ChatGPT 了&#xff0c;记得设置访问密码啥…

运用docker 本地搭建chatGPT

下载docker dockers官网 1. 需要重启电脑 2. 重启之后 升级 wsl --update 3. 打开 powershell 4. 输入 升级命令 5.安装完成之后打开docker 使用开源项目 docker安装 1. 使用开源项目&#xff1a;潘多拉 (Pandora) 2.一键安装命令 docker pull pengzhile/pandora docker run…

【AIGC】使用 Vercel 快速搭建 ChatGPT服务器

前言 在中国大陆境内域名提供商购买的域名&#xff0c;需要实名认证才能开启 DNS 解析。而在国外域名提供商买的域名则不用。指向中国大陆内的云服务器的域名提供的网站&#xff0c;必须备案才能正常被访问。但是任何指向国外服务器的域名却可以不受此规则的限制。Vercel 是一…

pytorch--在本地搭建chatGpt简化版,实现聊天,写代码功能

文章目录 前言效果搭建环境安装编译环境安装anaconda&#xff0c;python3.8.8环境安装vs2019vs2019安装完毕后开始安装cuda安装cudnn安装pytorch 前言 体验了一下new bing&#xff0c;很不错&#xff0c;但是最近觉得这种模型还是搭建在自己电脑上最好&#xff0c;看了下githu…

ChatGPT扩展系列之使用pandora本地搭建ChatGPT

ChatGPT扩展系列之使用pandora本地搭建ChatGPT 1. 为什么要本地搭建 主要解决使用上的几个痛点,我们可以看一下下面就是我们最常遇到的几个问题,这里我们重点提一下就是我们本地搭建好了之后,我们获取Access Token,这个Token的有效期长达14天,也就是这14天中,我们都不需…

基于DockerDesktop搭建ChatGPT环境

文章目录 一、重装系统1.1 系统版本1.2 安装Docker DeskTop1.3 安装Docker Desktop后重启系统1.4 运行Power Shell1.5 切换网络环境1.6 重新运行PS 二、DockerDesktop2.1 导入镜像2.1.1 启动DockeDesktop2.1.2 启动PS 2.2 新建容器2.2.1 搭建ChatGPT(pengzhile_pandora_latest_…

以一己之力搭建分布式ChatGPT

原以为去年年底ChatGPT已经火过一阵子了&#xff0c;慢慢热度会降下来。出乎意料的是&#xff0c;其热度有增无减。我也是从去年年底一直关注并使用&#xff0c;包括ChatGPT网页版、GPT3 API以及ChatGPT内测API&#xff0c;还包括其他国内外一些人工智能算法的体验。 为了方便使…

如何快速搭建一款自用的chatgpt-web网站

文章目录 前言一、准备工作二、开始搭建1.node安装2.拉取源码 三、总结 前言 ChatGPT 是一款由 OpenAI 开发的聊天机器人&#xff0c;可以用自然语言与用户进行交互。它基于 GPT 模型&#xff0c;拥有非常强大的语言生成能力&#xff0c;可以在许多场景中被广泛应用&#xff0…

小白快速搭建 ChatGpt

小白快速搭建 ChatGpt 前言一、页面展示二、前期准备1.魔法账号2.GitHub账号3.Vercel账号 三、项目部署1.GitHub复制项目到自己的仓库2.Vercel添加项目1&#xff09;创建项目2&#xff09;导入项目3&#xff09;环境变量配置4&#xff09;Deploy 和 Ccontinue to DashBoard 即可…

ChatGPT-4之免费使用-cursor文本编辑器

cursor是一款GPT4功能强大的编程文本编辑器&#xff0c;支持多种文件类型&#xff0c;支持格式化文本&#xff0c;支持多种主题&#xff0c;具有实时预览功能&#xff0c;支持多语言语法高亮&#xff0c;支持快捷键设置&#xff0c;支持扩展插件&#xff0c;支持代码折叠、括号…

[呆仔资源] ChatGPT加强版4.0,已上线!!安卓电脑均支持

随着AI在我们生活中的应用越来越高。如今的AI人工智能已不是当年的人工智障了&#xff0c;它更是脚踢“搜索引擎”的存在&#xff0c;仿佛化身成为了我们的私人管家。 现在各路大神对于AI的强大功能可谓是十分看好&#xff0c;毕竟实力摆在那&#xff01; 接下来&#xff0c;…

安卓期末大作业——日记APP

2022/2023 学年 第 一 学期 课程设计 实验报告 模 块 名 称 Android课程设计 专 业 通信工程&#xff08;嵌入式培养&#xff09; 学 生 班 级 学 生 学 号 学 生 姓 名 指 导 教 师 设计题目熟悉adt-bundle-windows-x86或android-studio-ide应用开发环境&#xff1a;安…

chatGPT与逆向的相遇,快速解决sslpinning抓包问题

项目场景: 这是一款金融类型的安卓app,有着root检测,与sslpinning校验,并且带有壳。下载的unpinning脚本根本行不通,接下来咱们看看该怎么去分析。众所知周,要分析一款app抓包只是第一步。偏偏是第一步就难倒不少人,本文只做知识要点记录,均会脱敏处理。大佬们轻喷 问…

Unity接入ChatGPT基于Python.Runtime的实现

目录 前言 编译Python.Runtime.dll Unity接入ChatGPT 1.第一步 准备环境 2.第二步 python代码的书写 3.第三步 C#调用python代码 前言&#xff1a; 相信各位游戏人都用过ChatGPT吧&#xff0c;那么怎么在unity里接入ChatGPT呢&#xff1f;本文章会通过一种极其简单的方式…

如何用ChatGPT进行剧本/广告脚本写作?

【ChatGPT】前些天发现了一个巨牛的人工智能学习电子书&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;无广告&#xff0c;忍不住分享一下给大家。&#xff08;点击查看学习资料&#xff09; 该场景对应的关键词库&#xff08;23个&#xff09;&#xff1a; 剧本、广告…

chatGPT能干什么?给大家分享一些实用的例子

下面给大家列举了一些实际的使用例子。 01 如果你是开发人员 chatGPT可以帮你辅助写一些原子功能的函数&#xff0c;提高开发效率 &#xff0c;效果如下&#xff1a; 打印9*9乘法表 手机号脱敏&#xff0c;项目中能够直接用 最头疼的变量命名&#xff0c;直接帮你搞定 想要体…

『干货』文案策划如何利用ChatGPT创作一篇热文?4步快速生成,1分钟搞定……

文案有多苦&#xff0c;大家心里都清楚。 组长会骂你文章没写到点子上&#xff0c; 项目负责人会觉得你没能力&#xff0c; 品牌方更是需要你说个一二三来…… 文案更是改了又改&#xff0c;调了又调&#xff01; 谁都可以对你指指点点&#xff0c;谁都可以骑在你头上拉S……