ChatGPT背后有哪些关键技术?CSIG企业行带你一探究竟

article/2024/9/17 3:24:22

目录

  • 1 ChatGPT的时代
  • 2 CSIG企业行
  • 3 议题&嘉宾介绍
    • 3.1 对生成式人工智能的思考
    • 3.2 对话式大型语言模型研究
    • 3.3 文档图像处理中的底层视觉技术
  • 4 观看入口

1 ChatGPT的时代

2015年,马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等硅谷科技大亨创立了OpenAI,公司核心宗旨在于实现安全的通用人工智能(AGI),使其有益于人类。

2022年12 月 1 日,OpenAI的联合创始人山姆·奥特曼在推特上公布ChatGPT并邀请人们免费试用

在这里插入图片描述

图源网络,侵删

ChatGPT可以与人类进行谈话般的交互,可以回答追问,连续性的问题,承认其回答中的错误,指出人类提问时的不正确前提,拒绝回答不适当的问题,其性能大大超乎人们对弱人工智能的想象。

ChatGPT对社会发展的影响非常广泛,以下是ChatGPT的自白:

大家好,我是ChatGPT,接下来介绍我对社会的影响。

  • 我可以提高信息获取的效率:回答各种问题,包括科技、医学、教育、商业等各个领域的问题,帮助人们更快速、准确地获取所需信息;
  • 我可以推动智能客服的发展:模拟人类对话,提供智能客服服务,使得客户能够更方便、快捷地解决问题,提高客户满意度和忠诚度;
  • 我可以帮助语言障碍者:用多种语言回答问题,帮助语言障碍者更方便地获取信息和解决问题;
  • 我可以改善教育体验:回答学生的问题,帮助学生更好地理解知识点,促进教育效果的提高;
  • 我可以促进科研进展:帮助科学家更快速地获取资料,进行数据分析和建模,从而推动科研进展;
  • 我可以促进文化交流:帮助人们学习其他国家和地区的语言和文化,促进跨文化交流和理解;

在这里插入图片描述

图源网络,侵删

2 CSIG企业行

虽然以ChatGPT为代表的AI黑科技产品一路狂飙、大规模落地,但仍然有一系列问题值得思考:

  • 国内生成式人工智能还有哪些前沿研究成果?
  • 跨模态、异构数据爆发式增长,如何高效处理?
  • 大型语言模型未来的优化趋势是怎样的?
  • 牵动多个应用领域的底层视觉技术有哪些优化空间?

在这里插入图片描述

2023年3月18日,由中国图象图形协会(CSIG)主办,合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG图像图形企业行”系列活动将正式举办,通过搭建学术界与企业交流合作平台,为企业创新发展提供科技支撑,为图像图形领域高校师生提供与企业互动机会,集结产学研力量,共同推动图像图形领域的发展。

在这里插入图片描述

此次活动以图文智能处理与多场景应用技术展望为主题,聚焦图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等热门话题,特邀来自上海交大、复旦、厦门大学、中科大等知名院校的学者与合合信息技术团队一道,以直播的形式分享文档处理实践经验及NLP发展趋势,探讨ChatGPT与文档处理未来。

活动干货多多,全程亮点,欢迎大家关注!

3 议题&嘉宾介绍

3.1 对生成式人工智能的思考

在这里插入图片描述

  • 嘉宾介绍:上海交通大学人工智能研究院常务副院长,人工智能教育部重点实验室主任,长江学者、国家杰青、IEEE Fellow。主要研究图像处理与机器学习,获国家科技进步二等奖、上海市科技进步一等奖、国家研究生教育成果二等奖。任中国图像图形学会常务理事、上海市图像图形学会理事长。
  • 报告题目:《生成式人工智能》

在这里插入图片描述

图源网络,侵删

生成式人工智能(Generative AI)是指一类可以自主创造新的数据、文本、图像、音频等内容的人工智能算法。

从 2017 年开始,GAI的主流技术生成对抗网络的应用陆续被人提出并不断完善。

GAN网络由生成器网络与判别器网络两部分共同构成。其核心思想是通过两个子网各自的最优变化,达到全局的最优效果。生成器网络的核心作用是通过一系列的网络结构生成可以骗过判别器网络的数据,判别器网络的核心作用是通过网络设计可以不被生成器网络生成的数据所骗过。生成器网络与判别器网络二者互相制约,共同成长,形成表现良好的网络结构。有时,网络内部还借助空洞卷积、注意力机制、特征融合、编码器等方法的一个或多个特性进行优化。生成器网络与判别器网络共同训练的过程如图所示

在这里插入图片描述

图中蓝色虚线代表判别器分布,黑色虚线代表真实数据,绿线实线代表生成器生成的数据。从左往右依次展示了生成对抗网络模型训练的过程中,生成器网络与判别器网络的变化过程。可见随着训练迭代次数的增加,生成器网络生成的数据逐渐接近数据库中原始的真实数据。直到判别器网络已经不能很好的判断出,它接收到的两种数据,哪个是生成器生成的数据,哪个是数据库中真实的数据,此时,生成对抗网络达到最佳效果,停止迭代。

生成式人工智能技术的出现,为我们创造更多样、更富创意的内容提供了新的可能性。举例而言

  • 图像/视频生成:生成对抗网络(GAN)可以用于生成逼真的图像,如 Deepfake 与 NVIDIA 的 StyleGAN就是一种应用 GAN 的技术,可以生成高分辨率的逼真虚假视频;
  • 文本生成:自回归模型可以用于生成连续文本,如 OpenAI 的 GPT 模型可以生成类似于自然语言的文本,可以用于自动生成文章、小说等;
  • 音频生成:WaveNet 是一种基于神经网络的音频合成模型,可以用于合成逼真的语音、音乐等;
  • 艺术创作:GAN 可以被用于生成逼真的艺术作品,如 NVIDIA 的 GauGAN 可以将简单的手绘图转换为逼真的景观照片;
  • 游戏设计:生成式人工智能可以用于游戏设计,自动生成游戏地图、角色等元素,如《MineRL》等游戏就使用了生成式人工智能技术。

总而言之,生成式人工智能技术的出现,为电影、游戏、音乐、小说等领域的创作提供了新的可能性。随着技术的不断发展,我们可以期待更多的应用场景出现。

在这里插入图片描述

然而,生成式人工智能技术也存在着一些潜在的风险和挑战:生成式模型可能会被用于制造虚假信息、混淆公众视听,影响社会稳定等。因此,我们需要在使用生成式人工智能技术时保持警惕,同时积极探索如何加强对这种技术的监管和管理,确保其能够为社会带来更多正面的价值。

在这里插入图片描述

图源网络,侵删

杨小康教授正是着力于生成式人工智能技术,分享团队对元宇宙和生成式人工智能发展趋势的思考,并对团队在流体现象模拟推理、物理环境持续预测学习、强化学习中世界模型表征解耦、虚拟数字人重建与驱动等方面的生成式人工智能初步成果进行介绍,欢迎大家进一步了解。

3.2 对话式大型语言模型研究

在这里插入图片描述

  • 嘉宾介绍:复旦大学计算机学院教授,担任中国中文信息学会理事、上海市计算机学会自然语言处理专委会主任等,主要研究方向为自然语言处理基础技术和基础模型,发表CCF A/B类论文80余篇,被引用1万余次,获得ACL 2017杰出论文奖(CCF A类)、CCL 2019最佳论文奖、《中国科学:技术科学》2021年度高影响力论文奖,有5篇论文入选ACL/EMNLP等会议的最有影响力论文,主持开发了开源框架FudanNLP和FastNLP,已被国内外数百家单位使用,发布了CPT、BART-Chinese、ElasticBERT等中文预训练模型,在中文模型中下载量排名前列。
  • 报告题目:《对话式大型语言模型》

对话式大型语言模型是一种非常有用的技术,可以模拟人类对话的能力。它们能够理解自然语言,以及根据给定的上下文和语境生成自然的响应。这些模型的一个很大的优点是,它们可以大大减少人类与机器之间的沟通障碍。这对于许多应用程序都非常有用,例如:

  • 智能助手:Apple Siri、Amazon Alexa、Google Assistant等,它们能够与用户进行自然语言对话,回答问题,执行任务,提供信息等等。

在这里插入图片描述

图源网络,侵删

  • 在线客服:许多企业都使用聊天机器人来与客户进行对话,解答问题,提供支持等等,从而提高客户满意度和效率;
  • 聊天机器人:微软的 XiaoIce、OpenAI的 GPT 等,它们可以与用户进行自然对话,提供有趣的聊天体验。

此外,对话式大型语言模型还在情感分析、文本摘要、自然语言理解等方面都具有非常广泛的应用。最近大家关注的ChatGPT,就是专门用于聊天和对话的语言模型。ChatGPT是基于GPT-3开发的,具有强大的对话能力,能够理解语言上下文,并能够生成富有表现力和连贯的响应。所谓GPT,全称是Generative Pre-trained Transformer,这是一种基于Transformer的语言模型。

Transformer又是什么呢?它是一种用于自然语言处理和其他序列到序列(sequence-to-sequence)任务的神经网络架构。它于2017年由谷歌的研究人员提出,被认为是自然语言处理领域的一项重大突破。

Transformer基于注意力机制(Attention Mechanism)构建,其核心思想是在序列中进行全局信息的交互和捕捉,而不是像以往的循环神经网络(RNN)一样在序列中逐个位置处理信息。Transformer通过多个自注意力层(Self-Attention Layer)进行信息的交互和表示,而每个自注意力层包含了注意力机制的三个部分:查询(query)、键(key)和值(value)。

在这里插入图片描述

图源网络,侵删

具体来说,对于一个输入序列,Transformer将其转换为多个词向量(word embeddings),然后通过自注意力层进行特征提取。在自注意力层中,查询向量通过与所有键向量的相似度计算来计算注意力分数,这些分数用于加权求和值向量,最终得到每个位置的输出向量。然后,这些输出向量被馈送到下一个自注意力层或全连接层进行后续处理。

相比于传统的序列模型,Transformer的优点在于可以并行处理输入序列,从而加速模型的训练和推断。此外,Transformer还能够有效地处理长序列,因为它可以在不受时间限制的情况下一次性处理整个序列,而不需要像RNN那样进行逐个位置的处理。

更多技术方面的内容可以期待一下邱锡鹏教授的报告,报告里,邱教授将以ChatGPT为例介绍其强大的意图理解能力、流畅的对话能力和丰富的世界知识,并讲解通用人工智能助手广阔的研究和应用前景。同时,阐述对话式大型语言模型的能力评测、能力演化路线分析以及如何在下游任务中更高效利用大模型的能力。欢迎感兴趣的同学参加!

3.3 文档图像处理中的底层视觉技术

在这里插入图片描述

  • 嘉宾介绍:上海交通大学模式识别与智能系统博士。长期从事文字识别(包括手写/OCR),图像处理研究,CSIG文档图像分析与识别专委会常务委员。近年来,带领团队获得过ICDAR19大会表格检测竞赛冠军,中国图象图形学会2021年度科技进步二等奖等奖项,现任合合信息图像算法研发总监。
  • 报告题目:《文档图像处理中的底层视觉技术》

底层视觉(Low-level vision)主要研究如何提高或恢复各类场景下的图像/视频内容,如

  • 图像去噪:主要解决图像中存在的噪声问题,使图像更加清晰和易于处理,广泛应用于图像处理、计算机视觉、医学成像、遥感图像处理等领域。
  • 图像超分辨率:指通过一系列的算法和技术将低分辨率图像转换为高分辨率图像的过程。超分辨率技术的原理可以简单地概括为利用算法将低分辨率图像转换为高分辨率图像。这个过程中,需要根据一些规则和约束条件来进行图像重建,以尽可能地提高重建后图像的质量。如下图所示

在这里插入图片描述

图源网络,侵删

超分辨率也是近年来视觉方向非常热门的话题。在实际应用中,超分辨率技术的实现通常分为两个步骤:训练阶段——利用大量的低分辨率和高分辨率图像对来训练一个神经网络模型,以学习图像间的映射关系;测试阶段——输入低分辨率图像后,通过训练好的模型进行重建,输出高分辨率图像。

超分辨率技术还包含大量的图像处理方法,例如

  • 图像插值

    图像插值是超分辨率技术中最基本的方法,它通过在像素之间插值来增加图像的分辨率。常见的插值算法包括双线性插值、双三次插值等,它们可以通过计算周围像素的加权平均值来填充新的像素值。虽然图像插值可以增加图像的分辨率,但是它并不能提高图像的质量,只是增加了图像的大小。

  • 图像重建

    图像重建是超分辨率技术中更高级的方法,它利用多张低分辨率图像来重建出一张高分辨率图像。常见的图像重建算法包括基于插值的重建、基于统计的重建、基于边缘的重建等。这些算法利用低分辨率图像中的一些特征来推断高分辨率图像中的信息,从而实现图像的重建。

  • 神经网络

    近年来,神经网络模型成为超分辨率技术中最常用的方法。通过训练神经网络模型,可以学习到图像之间的映射关系,从而实现低分辨率图像到高分辨率图像的转换。常见的神经网络模型包括卷积神经网络(CNN)、循环神经网络(RNN)等。这些模型可以通过反向传播算法进行训练,并在测试阶段进行图像重建。

更多相关的技术理论将在郭丰俊博士的报告中展开,同时,郭丰俊博士将分享合合信息在文档图像处理系统中所做的底层视觉技术研发工作,从技术本身的应用和对下游任务的影响的角度,阐述底层视觉技术的价值与思考。

4 观看入口

合合信息视频号18号下午14:00直播,欢迎感兴趣的同学来交流

在这里插入图片描述
议程

时间议题发言人
14:00-14:05《合合信息 欢迎致词》合合信息 领导 Micheal
14:05-14:10《CSIG文档图像分析与识别专委会主任 致词》华南理工大学 金连文教授
14:10-14:40《生成式人工智能》上海交通大学 杨小康教授
14:40-15:10《对话式大型语言模型》复旦大学 邱锡鹏教授
15:10-15:40《复杂跨媒体数据协同分析与应用》厦门大学 纪荣嵘教授
15:40-16:10《面向图像文档的复杂结构建模研究》中国科学技术大学 杜俊
16:10-16:40《文档图像处理中的底层视觉技术》合合信息 郭丰俊
16:40-17:1515分钟答疑

http://chatgpt.dhexx.cn/article/frK7kjpM.shtml

相关文章

ChatGPT背后的模型三兄弟

ChatGPT作为最接近强人工智能的系统,具有强大的信息理解和信息抽象总结能力,在这个信息过剩的时代,为我们提供了一个非常好的智能辅助工具。在我们日常的工作中,怎么充分的利用ChatGPT等类似的智能系统,会给我们生活和…

ChatGPT火爆,背后的核心到底是什么?

点击上方“小麦大叔”,选择“置顶/星标公众号” 福利干货,第一时间送达 2022年12月份的时候,ChatGPT还只是个被人各种撩的聊天工具。但进入2023年后,已经向着效率工具迈进了。 微软宣布正和ChatGPT开发团队OpenAI进行洽谈&#xf…

ChatGPT背后的模型

文章目录 1.RLHF方法2.ChatGPT中的RLHF方法2.1 微调模型GPT-32.2 训练奖励模型2.3 利用强化学习进一步微调语言模型 3.效果4.面临挑战5.参考 InstructGPT语言模型,是一个比 GPT-3 更善于遵循用户意图,同时使用通过我们的对齐研究开发的技术使它们更真实、…

ChatGPT既然这么火,有没有弊端呢?

介绍 在现代社会中,人们越来越依赖技术来解决问题。聊天机器人是一种最新的技术趋势,这种技术可以为人们带来很多便利。而ChatGPT聊天机器人则是其中的一种,它使用了大型的语言模型GPT(Generative Pre-trained Transformer&#…

突发!ChatGPT疯了!

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 今天,笔者正常登录ChatGPT,试图调戏一下他。但是,突然震惊的发现,ChatGPT居然疯了。 之所以说他是疯了,而不是崩溃了,是因为他还能回复我,但…

ChatGPT背后的逻辑

版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl OpenAI与ChatGPT OpenAI是一个美国的人工智能(AI)研究实验室,由非营利组织OpenAI Incorporated和其盈利子公司OpenAI Limited Partnersh…

ChatGPT爆火网络背后的故事?

文章目录 前言一、ChatGPT的诞生背景二、ChatGPT的技术原理三、ChatGPT的推广策略四、ChatGPT的未来展望五、橙子送书第2期 前言 ChatGPT是一款基于人工智能技术的聊天机器人,它的出现引起了广泛的关注和热议。在短短的时间内,ChatGPT就成为了全球范围内…

ChatGPT 用户破亿背后...

2022 年 12 月初,ChatGPT 被社会广泛讨论之初,我们就介绍了 ChatGPT 母公司 OpenAI 使用了身份云(IDaaS)服务。在当时,人们还在感慨 ChatGPT 上线不到一周时间用户量就突破百万,而仅仅在不到两个月后&#…

ChatGPT背后的经济账

ChatGPT能否取代Google、百度这样的传统搜索引擎?为什么中国不能很快做出ChatGPT?当前,对这些问题的探讨大多囿于大型语言模型(LLM)的技术可行性,忽略或者非常粗糙地估计了实现这些目标背后的经济成本&…

ChatGPT是风口吗?爆火后的质疑猝不及防

作者观: 首先要明确一点,ChatGPT代替不了人类,不要抱不切实际的期望。 作为一款由OpenAI开发的人工智能聊天软件,该程序在一些人的眼里具有革命性的意义。 有人说,这玩意儿可以在一夜之间让无数人失业,也有…

带头抵制高级AI,马斯克在怕什么

Chat-GPT 和 GPT-4 给大家留下的话题实在不少,一边是大家已经开始享受着人工智能带来的便捷,各种写论文出脚本,另一头则是更多的精英人士开始对高级 AI 心存忧虑。 上个月底,据路透社的报道,有一群人工智能专家及行业…

二月安全月报 | 45亿条快递数据疑泄露,Twitter史上最大规模宕机

为了让大家更全面的了解网络安全的风险,顶象针对每月值得关注的安全技术和事件进行盘点总结。 国内安全热点 👉业务安全 男子注册上万账号薅羊毛获利13万 近日,上海市,由闵行区人民检察院提起公诉的刘某某诈骗一案开庭审理&…

最先被GPT革掉命的,大概率是你每天都在用的验证码

前段时间,有一个叫 “ Chirper ” 的互联网社区突然火了。 和普通的社区不一样,这个社区拒绝任何真实人类的进入。所有在上面发帖的,都是提前设定好角色属性的 “ 机器人 ”。 它们之中有年龄高达 300 岁的可以使用魔法和动物交流的森林女王…

“用过 Rust 后,我写 Python 的方法都变了!”

近年来,Rust 以其安全性出名,逐渐被各大科技巨头所拥抱——那么,其他主流语言是否可以参考 Rust 的编程思想呢?本文作者以 Python 为例,做了一番尝试。 原文链接:https://kobzol.github.io/rust/python/202…

如何实现在纯 Web 端完成各类 API 调试?

作者 | 张涛,携程机票研发部高级软件工程师 责编 | 夏萌 在软件开发过程中,对于各类 API 的调试工作至关重要。API 调试是验证和测试应用程序接口的有效性和正确性的关键步骤。传统的 API 调试方法通常依赖于独立的工具或桌面应用程序,限制了…

BASIC 之父出生 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 5 月 31 日,在 1962 年的今天,伦纳德克兰罗克(Leonard Kleinrock)发表了他的第一篇论文,题为“大型通…

22字声明、近400名专家签署、AI教父Hinton与OpenAI CEO领头预警:AI可能灭绝人类!...

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 经过不到一年的时间,AI 的发展超乎所有人的想象,也大有失控的风险。 就在今天,全球部分顶尖的 AI 研究员、工程师和 CEO 就他们认为 AI 对人类构成的生存威胁发出了新…

时至 2023 年,2000 万行仍然是 MySQL 表的软限制吗?

一直有传言说,MySQL 表的数据只要超过 2000 万行,其性能就会下降。而本文作者用实验分析证明:至少在 2023 年,这已不再是 MySQL 表的有效软限制。 原文链接:https://yishenggong.com/2023/05/22/is-20m-of-rows-still-…

GPT-4 Copilot X震撼来袭!AI写代码效率10倍提升,码农遭降维打击

新智元报道 【新智元导读】GPT-4加强版Copilot来了!刚刚,GitHub发布了新一代代码生成工具GitHub Copilot X,动嘴写代码不再是梦。 微软真的杀疯了! 上周,微软刚用GPT-4升级了Office办公全家桶,还没等人们反…

FBI 花 3 年暴力破解 iPhone X 密码,竟成一场空?法院:搜查令已过期,证据无效...

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 很难预料到,几年前 FBI 和苹果之间那场备受关注的隐私大战,时至今日仍有余波: ▶ 2016 年,正值苹果与 FBI “剑拔弩张”时,其安全指南曾声称…