张俊林:当前炼制“大语言模型”的两个现象

article/2025/9/20 6:54:43

知乎:张俊林
链接:https://zhuanlan.zhihu.com/p/622365988
编辑:深度学习自然语言处理 公众号

先说第一个现象。

自从LLaMA和ChatGLM开源后,再加上各种五花八门的“Self Instruct”数据在网上逐渐汇合,大模型两大要素都齐备了,基座模型有了,命令调教数据也越来越多了。于是,最近新冒出的大模型与日俱增。也许,我们可以重新定义新阶段的大模型“涌现能力”:当开源模型与instruct数据数量小于一定规模的时候,就几乎看不到新的大模型出现,而当开源模型及instruct数据数量达到一定规模,新的“大模型”数量就会以指数速度增长,进而达到“人手一个大模型”的阶段。现在大家发愁的不是没有”大模型“,而是发愁给大模型起个啥名字才好,起名字的时间成本可能要高于炼大模型的时间成本,貌似动物园里动物的名字快被用光了,需要换个赛道起名字了。

当然,我是举双手赞成大模型的各种形式的开源的,开源促进生态繁荣,毫无疑问是个好事情,虽然我不认为通过开源可以复制出GPT 4这种水准的大模型。但是,对于目前每天一个大模型的现象,个人感觉”既有意义也没意义“,要分两头来看。”有意义“之处在于:每个人都能通过这种方式来练练手试试水,感知下大模型这个新物种,而且可以利用这种方式,去构建或测试一些对模型能力要求不那么高的垂直场景的应用效果。“没有意义”之处在于:如果大家都是拿个LLaMA 7B/ChatGLM 6B基座,之后再从网上下载instruct数据去instruct fine-tune模型,然后起个名字发出来,作为新的开源模型。这种做法意思不大,自己练练手就得了,没必要起个名字再发出来,除非与当前已经开源的模型比真有独特的优点,或新的增益。

我觉得可以做下面几件事情,然后开源出来,意义相对比较大:

其一,最起码的,把基座模型规模再往大放一放,比如把LLaMA放到30B甚至65B,再加上目前能收集到最全的instruct,再把模型推理方面对资源需求降低些,起个名字,开源放出来,也有意义;

其二,在LLaMA这种中文支持不太好的模型,加上一个中文数据继续预训练过程(很可能会损害基座模型的能力),把中文能力做个大幅提升,再加上最全的Instruct去Fine-tune。通过这种方式,构建一个虽然小,但是中文能力相对比较强的大模型,也挺有意义;

其三,在当前开源的大模型基础上,结合某些垂直领域的数据,改造出开源的领域大模型,这个很有意义;

其四,在LLaMA+instruct之后,或者ChatGLM基础上,探索点新的技术改进路线,为LLM社区提供些技术启发,这个是很有意义的;

接下来说第二个现象。

目前来看,构建全面的权威中文LLM评测集合,是个当务之急。正因为不存在这种评测数据,再加上上面说的第一个现象,复现出一个看着貌似效果还可以的大模型成本很低,才会出现我们现在看到的现象:每天一个新模型冒出来,很多都说自己效果特别好,反正没有标准答案,我就挑自己的一两个优点来说,或者自己挑选几个比ChatGPT回答得好的例子发出来,然后说自制的大模型效果接近于ChatGPT的效果,别人除了说“没毛病”外,确实也说不出啥。这个现象好吗?肯定是不好的,因为对于那些真正效果好的大模型来说很不公平,它们会被淹没在众多嘈杂的声音中,完全得不到本该有的关注度,而且公众的热情也会被消耗殆尽。比如,现在您看看,还有多少人有热情去参与各种新模型的公测?我估计已经不太多了,这对于真正效果好的大模型后续收集用户反馈进一步迭代,冲击是很大的。

如果有一个权威的LLM中文评测集,我相信对于解决目前的现象是有极大帮助的,估计再过两个月会出来一批中文评测集,而再过一阵子,估计下半年,那个或那几个好的评测集合会跑出来。新的大模型效果好不好,大家都拿权威评测集合来说话,而不是目前自说自话的状态。

当然,构建好的LLM评测集合,本身其实也很有难度,比如选择哪些评测维度?评测指标怎么设计?评测数据如何而来?怎样保证这些评测数据不会出现在大模型的预训练数据里?而当你发布评测结果的时候,评测例子要不要给出来?如果给出来,那么下一个新的大模型会不会把它拿来放到训练数据里?或者专门拿这种类型的数据去强化自己的模型?这都是问题,也很考验LLM评测设计者的水平。

而且最好是有两套评测数据,一套是评测基座模型各项能力的,另外一套是测试带上instruct调试之后能力的。因为根据目前的情况看,如果只能测试带Instruct之后的模型,就像上面提到的,很可能很多基座能力强的模型,都没机会和足够的关注度,去拿到用户的反馈数据,都走不到第二阶段。如果能有单独的一个基座能力测试,就会好很多,起码基座能力强的,可能还有些机会。否则,大家做大模型,很可能即使基座大模型效果很强,但没法拿到用户反馈数据进入第二阶段,就只能落入拿GPT 4接口收集”Self Instruct“的怪圈,如果那样,恐怕想赶上GPT 4,难比登天。

无论如何,目前百花齐放的情景总体而言还是挺好的,虽然有些混沌,但是大概也是作为技术追赶者必经的阶段。

进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群)

加入星球,你将获得:

1. 每日更新3-5篇论文速读

2. 最新入门和进阶学习资料

3. 每日1-3个AI岗位招聘信息

70d7d3fd8de908084fb9b0c7588efc90.png


http://chatgpt.dhexx.cn/article/R1qUAlv2.shtml

相关文章

张俊林:推荐系统的下一步

作者 | Clara Deng采访嘉宾 | 张俊林编辑 | Natalie AI 前线导读:NLP 是人工智能中最难的问题之一,对它的研究与落地充满了挑战性。预训练模型 BERT 的出现给自然语言处理领域带来了里程碑式的改变。我们采访了新浪微博机器学习团队 AI Lab 负责人张俊林…

一文看懂推荐系统:Gate网络(一):新浪微博GateNet,GateNet就是想用attention的方法去搞,和SENet一样,都是张俊林的杰作

一文看懂推荐系统:Gate网络(一):新浪微博GateNet,GateNet就是想用attention的方法去搞,和SENet一样,都是张俊林的杰作 提示:最近系统性地学习推荐系统的课程。我们以小红书的场景为例…

张俊林:对比学习在微博内容表示的应用

分享嘉宾:张俊林博士 新浪微博 编辑整理:李桂荣 中南财经政法大学 出品平台:DataFunTalk 导读:深度学习的成功往往依赖于海量数据的支持,根据训练数据标记与否,可以分为有监督学习和无监督学习/自监督学习。…

一文看懂推荐系统:排序16:Dual Augmented Two-tower Model和张俊林的SENet,都是为了加入特征交叉想,增强重要特征,去掉噪声,类似于attention的骚操作

一文看懂推荐系统:排序16:Dual Augmented Two-tower Model和张俊林的SENet,都是为了加入特征交叉想,增强重要特征,去掉噪声,类似于attention的骚操作 提示:最近系统性地学习推荐系统的课程。我们…

张俊林:BERT和Transformer到底学到了什么 | AI ProCon 2019

演讲嘉宾 | 张俊林(新浪微博机器学习团队AI Lab负责人) 编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) 【导读】BERT提出的这一年,也是NLP领域迅速发展的一年。学界不断提出新的预训练模型,刷…

张俊林:GPT-4 模型会开创哪些新的研究方向?

作者|张俊林知乎 整理|蘑菇先生学习记 分享一篇张俊林老师关于GPT-4模型会开创哪些新的研究方向的回答。 引言 在这个历史性的时刻,回答个问题,留下自己作为历史见证人的足迹。先遵循这个问题的主旨,写两句GPT-4开创了…

新浪张俊林:大语言模型的涌现能力——现象与解释

内容来源:ChatGPT 及大模型专题研讨会 分享嘉宾:新浪新技术研发负责人、中国中文信息学会理事 张俊林 分享主题:《大型语言模型的涌现能力:现象与解释》 转载自:https://zhuanlan.zhihu.com/p/621438653 注1&#xf…

张俊林:对比学习研究进展精要

作者 | 张俊林 编辑 | 夕小瑶的卖萌屋 对比学习(Contrastive Learning)最近一年比较火,各路大神比如Hinton、Yann LeCun、Kaiming He及一流研究机构比如Facebook、Google、DeepMind,都投入其中并快速提出各种改进模型:Moco系列、SimCLR系列、…

张俊林:推荐系统排序环节特征 Embedding 建模

每天给你送来NLP技术干货! 分享嘉宾:张俊林博士 新浪微博 编辑整理:刘一全 出品平台:DataFunTalk 导读:随着深度学习在推荐系统应用的发展,特征 Embedding 建模的重要性已经成为共识,同时海量特…

张俊林:从对比学习视角,重新审视推荐系统的召回粗排模型

分享嘉宾:张俊林博士 新浪微博 编辑整理:王岩 开课吧 出品平台:DataFunTalk 导读:今天分享的主题是从对比学习的视角,即从一个不同的角度来看看推荐系统里面的召回和粗排模型。对比学习从去年年中开始比较火&#xff0…

单链表的插入和删除

前言 在上一篇文章(单链表的定义)中我们已经了解了单链表的含义和简单的实现。那么在这篇文章中,我们将要来讲解单链表的插入和删除操作。 按位序插入(带头结点) 我们在上篇文章中已经讲解过,如果想要在…

单链表的定义和表示

一、单链表的存储结构,如下图所示: 定义单链表L的代码段: typedef struct Lnode{ //声明结点的类型和指向结点的指针类型 ElemType data; //结点的数据域 struct Lnode *next; //结点的指针域}Lnode, *Li…

【数据结构】- 链表之单链表(中)

文章目录 前言一、单链表(中)1.1 头删1.2尾删1.2.1第一种方法:1.2.2第二种方法:1.2.3多因素考虑 二、完整版代码2.1 SList.h2.2 SList.c2.3 Test.c 总结 前言 千万不要放弃 最好的东西 总是压轴出场 本章是关于数据结构中的链表之单链表(中) 提示&#…

带头结点的单链表表示和实现

带头结点的单链表表示和实现 单链表是一种链式存取的数据结构,用一组地址任意的存储单元存放线性表中的数据元素。 链表中的数据是以结点来表示的,每个结点的构成:元素(数据元素的映象) 指针(指示后继元素存储位置),元素就是存…

C++单链表

链表是一种常见的数据结构。它主要是利用动态内存分配、结合结构体并配合指针来实现的,能根据需要开辟和释放内存单元。由于链表是用一组任意的存储单元来存储线性表中的数据,存储单元不一定是连续的,且链表的长度不是固定的,因此…

单链表的建立

一、顺序建立链表(尾插法) 1、首先建立一个只需头结点的空链表,此时头指针、尾指针均指向头结点 head(struct node*)malloc(sizeof(struct node));head->nextNULL; 2、在头结点后插入第一个节点 p(struct node*)malloc(sizeof(struct n…

【数据结构】单链表(带图详解)

文章目录 一、单链表的定义及其结构1.1.概念1.2.单链表的结构1.3.单链表的特点 二、单链表的实现2.1.定义结点2.2.创建单链表2.3.打印单链表2.4. 单链表尾插与尾删2.4. 单链表头插与头删2.4.查找某个结点2.5.插入2.6.删除\ 总代码 一、单链表的定义及其结构 1.1.概念 概念&am…

单链表的常用算法

目录 一、判断链表是否为空 二、单链表的销毁:链表销毁后不存在 三、清空单链表:链表仍存在,但链表中无元素,成为空链表(头指针和头结点仍然在) 四、求单链表的表长 五、单链表的取值 六、单链表的按值查找 七、单链表的插…

线性表的链式存储:单链表的相关介绍(插入、删除、查找等)头节点和头指针的区别

一、链式存储 用一组地址任意的存储单元(地址可以连续也可以不连续),依次存储线性表中的各数据元素。 链式存储结构中的每个存储单元称为“结点”,结点包含一个数据域和一个指针域。 数据元素之间的逻辑关系通过结点中的指针表示 …