ChatGPT 助力智能文案生成

article/2024/9/17 3:38:46

当前各大电商互联网平台上拥有海量的商品数据,为商品撰写一个精准且具有吸引力的标题文案,对于业务场景的转化以及用户使用体验的提升都有极大帮助。然而由于商品库规模庞大,人工运营编写商品文案的成本太高,并且对于智能推荐、营销等需要及时动态展示的场景,全部采用人工来编写多样化、个性化的文案基本是不现实的。因此,基于机器智能的文案生成技术,对于成本控制,以及大规模动态文案生成场景,不失为一种高效的解决方案。

机器智能文案生成技术虽然被业界广泛研究并在特定场景得到深入的应用,但依然是充满挑战的一项任务。尤其对于电商标题文案生成来说,智能生成的文案不能太过自由、超纲发挥,至少需要满足 2 点条件:文案准确地陈述商品的真实属性、文案包含了商品重要信息、文案能够突出显示商品的特色亮点;除此之外我们还希望文案具有阅读流畅、文采、吸引用户等加分项。总之,对于电商标题文案生成任务,首先需要依赖一套可控的文案生成技术、保证文案的准确全面,其次需要依赖外部知识、使得生成文案更具吸引力和多样性。随着近年来超大规模语言模型(LLM)不断取得了新的进展、突破,为我们解决电商标题文案生成任务提供了诸多的启发,借助 LLM 预训练模型内部的世界知识、再结合前沿的 ChatGPT 模型训练手段,极大的提升了文案生成效果。

在超大规模语言模型(LLM)阵营中 OpenAI 发布的 GPT 系列模型有着举足轻重的地位,模型参数规模从 GPT-1 的亿级别提升到 GPT-3 的千亿级、训练数据也相应地从 GB 级别提升到了 TB 级别,并且发布于 2020 年的 GPT-3 展现出来的零/少样本学习能力,能够广泛的适用于各种自然语言理解和生成任务,在当时让整个社区大为震撼。临近 2022 年末,OpenAI 发布了对话场景下的 ChatGPT,再次震撼社区、大量用户涌入试用、在社交媒体上传阅讨论相关话题,仅一周时间注册用户就突破百万,可见 ChatGPT 带来的影响力之大。在感慨 LLM 突飞猛进的同时,作为技术同学,我们一直在思考 ChatGPT 这种前沿的技术进步能够为我们真实的业务场景带来什么启示。随着对 ChatGPT、InstructGPT 以及基于人类反馈的强化学习(RLHF)等技术的了解,我们发现 ChatGPT 的对话场景和电商标题文案场景具有诸多相似之处,ChatGPT 的重要动机在于让模型生成内容不是随意发挥、而是对齐人类偏好,而前面提到电商标题文案也有这类诉求,因此我们探索将 ChatGPT 部分模型训练优化思路借鉴过来解决可控文案生成问题。

接下来本文将会详细介绍如何借鉴 ChatGPT 模型训练优化思路的方法、展示效果上带来的提升以及对未来的一些规划展望。另外虽然本文将会以酒店民宿场景下的标题文案生成为例,但其实方法具有场景普适性,适合大多数具有可控诉求的商品标题文案生成问题。

方法

问题定义

本文将以酒店民宿场景下的标题文案生成为例,来介绍如何借鉴 ChatGPT 模型训练优化的思路。该问题具体来说,就是给定房源的结构化和非结构化信息(其中结构化包括房型/风格/配套设施等,非结构化信息包括房东描述/周边介绍等),生成描述房源对应的标题,要求标题能够客观且全面的展现房源真实信息并能够突出房源特色亮点。

整套房源标题文案生成的核心流程如下所示:

其中从结构化成分属性到标题生成的过程就是本文要解决的文案生成问题,问题输入&输出定义如下:

相关方法

由于为房源生成的标题文案,既不能产生无中生有的信息、也不能缺失重要成分,而且还希望能够引入外部知识来丰富标题。因而相关的解决方案应该是受限的、可控的,生成的标题是满足特定约束条件的,目前较为成熟的方法分两类:

(1)基于规则模版的生成,由人工结合专业领域知识来编排出小规模的模版库,然后将结构化信息送入模版解析器中,完成模版的挑选以及信息点位的填充。

(2)基于深度模型的生成,利用预训练 LLM 模型学习到的大量知识,在结构化输入到标题输出的数据集上进行微调训练,同时为了确保输出标题可控,会引入辅助训练任务以及特定的解码策略。

在我们实践过程中发现以上两类方法各有优缺点,规则模版的问题在于依赖专业知识、泛化能力不足、生成的标题较为刻板,而深度模型微调的问题主要在于训练数据的构建成本以及难以保证标题的可控性。不过考虑到泛化性、解耦专业知识的优势,我们的房源标题生成方案选用了深度生成模型,下文会详细介绍我们是如何克服该方案的困难和不足。

本文方法

在项目第一期优化时,我们采用的方案是直接对中文预训练 GPT-2 模型进行微调训练,通过 case 分析发现该方法相对于规则模版,生成的标题信息更为丰富、多样,同时也发现一些问题,比如一些高频设施会出现在标题中、特色非标的设施不能够得到展示等。与此同时 2022 年底 ChatGPT 发布了,随着社交媒体上的爆火,我们也在学习思考 ChatGPT 的一些技术细节,发现其跟文案生成有着类似的动机:让预训练模型生成的内容能够对齐人类偏好。因此在项目二期优化阶段,我们尝试以较低成本来借鉴 ChatGPT 的模型训练思路,最终将其集成到了房源标题文案生成项目,当然这里介绍的方法也可适用于其它需要可控性的文案生成业务场景中。接下来会介绍完整的房源标题文案生成方法。

与 ChatGPT 训练流程类似,存在 3 个阶段:

1. 构建高质量精选训练集,格式为:<结构化属性, 优质标题>,以 LM 为训练目标对 GPT-2 进行微调训练,得到若干 GPT-2-finetuned 模型;

2. 全局随机采样房源结构化属性,得到生成的候选标题,人工对标题标注质量顺序,并利用该数据训练一个质量判别模型;

3. 利用 GPT-2-finetuned 模型大规模生成标题,然后利用上步得到的质量判别模型进行过滤,得到规模更大的训练集,并对 GPT-2-finetuned 进行二次微调训练,得到最终的生成模型。

下文会详细展开介绍这三个阶段。

首先,高质量精选数据的构建以及第一次微调。互联网上有较多业务数据跟我们的业务场景相似,保守估计头部几家平台大概有百万级数据可用,我们抓取这部分数据并做了脱敏处理。不过由于质量参差不齐,数据不能够直接用来进行训练,为此我们结合平台的线上销量/用户评分/点赞/信息丰富度等特征,设计了一些高准确率的过滤策略,得到大约万级别的精选训练数据。此外在模型微调训练时,我们尝试了较多种结构化属性到 prompt 文本的方法,并且注意到类目识别辅助任务的添加对效果提升有一定帮助。同时通过对不同 prompt、超参的调整得到多个 GPT-2-finetuned 版本模型,为后续优化做准备。

其次,质量判别模型的训练。从全量抓取的房源数据随机采样,然后利用 GPT-2-finetuned 模型以及解码策略的调整,来得到一个房源的多个生成标题,这份数据作为标注的候选。人工对标注候选集中多个标题进行排序调整,排序的先后表示质量的好坏,这个我们在人工标注时有一套较为详细的标准,比如特色设施有无显示、房型风格有无修饰成分、特色景观有无短语概述等。标注完成之后,得到数据格式假设为:(X, [t1, t2, t3]),其中 X 表示房源结构化属性,[t1,t2,t3] 表示按质量好坏排序的生成标题,然后利用 pair-wise 损失函数为目标来训练一个质量判别模型:

其中 M 是 GPT-2-finetuned 模型,输入 X 和 t,输出 0.0~1.0 之间的质量判别分数,分数越高质量越好。由于对生成标题再排序的标注成本较低,并且能够较好的代表人工对标题的偏好,因而训练得到质量判别模型一定程度上也能够代表人对标题的偏好。

最后,基于大规模训练数据的二次微调。设置一些松散的质量筛选条件后,可得到大规模房源数据,用第一阶段的 GPT-2-finetuned 模型生成候选标题,再经过质量判别模型将其中得分较低的数据过滤掉,最终得到第二次微调训练数据,可在 GPT-2-finetuned 基础上仿照上述方法进行二次微调训练,如此,经过 2 轮的迭代,完成语言模型的训练。

整体上来看,第一阶段是我们的原始方案,第二和第三阶段的思路借鉴自 ChatGPT 模型的部分思路,跟 ChatGPT 异同之处主要有以下几方面:

效果

通过借鉴 ChatGPT 训练思路,我们引入了第二和第三阶段的训练优化,经过人工评估文案生成结果,发现带来较大效果提升。这里我们选取一些较为典型的 case 进行分析,来对比原始方法中仅第一阶段微调模型的差异。

#CASE1

改进方法能够将更体现房源特色的“代买景区门票”服务以及“投影仪”设施等卖点展示在标题中,这一点在我们迭代原始方法时就注意到了,原始模型更倾向于生成那些高频出现的属性,但不一定是房源最具特色的属性,在第二阶段质量标注细则中我们也特意强化了这一点,因此改进方法能够表现更优。

#CASE2

改进方法的一个优势在于能够更细粒度的对属性进行表述,比如“海景”景观属性,原始方法仅罗列了出来,而改进方法能够为特色景观搭配一句诗词。还有“落地窗”以及“投影仪”这样的卖点设施,改进方法都能够添加更多的修饰成分在里面,这一点同样是第二三阶段对齐人类偏好的结果。

#CASE3

改进方法除了在内容上突出强调、增强修饰成分外,我们观察到还对标题中属性的顺序进行了调整, 比如上面例子中,将“北欧风格”、“落地窗”、“团建”这些更具特色卖点的属性调整到了标题前面,这一点同样也对齐了我们的质量标注细则要求。

结束语

近年来随着以 Transformer 为骨架的超大规模语言模型不断取得技术突破,AIGC 赛道愈发火热,从 2022 年中的 Stable Diffusion 多模态图像生成模型到 2022 年末的 ChatGPT 多轮对话语言模型,其生成的内容让人有些真假难辨,而且有的人已经从中嗅到商业化的可能,就连国外权威的图库网站、问答网站都甚至发出对此类生成内容的禁封,由此可见以大规模语言模型为基石的智能生成能力的进展有多迅猛。AI 技术日新月异,作为技术同学,一方面我们持续关注着前沿 AIGC 技术的进展,另一方面我们也立足当下进行思考,借鉴 ChatGPT 部分模型优化思路到具体的商品标题文案生成业务场景中,提升标题文案的准确可控、多样性以及吸引力,其中不足之处在于,没能够引入强化学习机制对模型进行调优,未来我们会持续不断进行迭代优化,并在合适的时候向社区开源我们的代码和模型。

可搜索公众号元灵数智,在底部菜单了解我们 - 用户交流获取官方技术交流群二维码,进群与业内大佬进行技术交流。


http://chatgpt.dhexx.cn/article/MfIon24R.shtml

相关文章

【动手教你学ChatGPT:爆款小红书文案生成】

小红书爆款文案生成 大家好&#xff0c;我是小钱学长。今天给大家带来的是动手教你学ChatGPT第一篇&#xff0c;小红书爆款文案的生成。ChatGPT的回答大部分时候是很机械的&#xff0c;尤其是当你使用很普通的提问方式去进行提问的时候。所以ChatGPT提示词是非常重要的&#x…

如何用ChatGPT写出爆款小红书文案,仅3个步骤,快get起来!

小红书越来越流行了&#xff0c;很多商家和个人都在上面搞运营推广~ 想要在这个平台众多的内容和用户中脱颖而出&#xff0c;就需要付出很多的时间和精力。你想知道如何快速写出爆款文案&#xff0c;吸引更多的用户浏览、点赞以及关注吗&#xff1f; 我发现一个非常好用而且很…

ChatGPT在小红书文案实践

今天聊一聊ChatGPT在小红书这个实际应用场景的案例。ChatGPT 以较低的门槛提高了使用者创作水平&#xff0c;有较高的下限&#xff0c;但如何创造更高质量的内容就要依靠使用者在领域的能力和AI使用技巧&#xff0c;作者无任何小红书推广和文案写作经验&#xff0c;文章内容来自…

用chatgpt超级写手批量制作抖音带货文案并直接SEO霸屏

带货文案怎么写&#xff1f; 最好的解决方案就是学习同行。 简版流程&#xff1a; 通过抖音热点宝&#xff08;手机端&#xff09;的种草视频&#xff0c; 或者抖音筛选出最多点赞&#xff0c;半年内的带货视频。 提取出带货文案&#xff0c; 然后用chatgpt直接改写一下带…

ChatGPT插件系统,正式上线!

因公众号更改推送规则&#xff0c;请点“在看”并加“星标”第一时间获取精彩技术分享 点击关注#互联网架构师公众号&#xff0c;领取架构师全套资料 都在这里 0、2T架构师学习资料干货分 上一篇&#xff1a;2T架构师学习资料干货分享 大家好&#xff0c;我是互联网架构师&…

提高工作和学习效率的chatgpt插件分享

分享6个ChatGPT插件 主要作用&#xff1a; 提高工作和学习效率 附ChatGPT中文调教指南 ChatGPT 中文调教指南_w3cschool 插件获取安装步骤&#xff1a; 打开Google浏览器-》菜单》更多工具》扩展程序&#xff08;可看已安装扩展&#xff09;》菜单打开应用商店 在右上角插…

Idea集成ChatGPT插件---AI帮你写代码

现在chatGtp非常火&#xff0c;对于程序员来说chatgtp不仅可以帮我们快速查阅资料&#xff0c;还能帮我们写代码&#xff0c;在idea中集成chatGtp插件的话&#xff0c;我们写代码可以分分钟起飞&#xff0c;再也不用打开浏览器查找资料啦&#xff0c;插件还能帮我们构建一些基础…

高效编程----VSCode+ChatGPT插件

VSCode中使用ChatGPT插件 首先在VSCode中打开扩展面板&#xff0c;搜索ChatGPT&#xff0c;安装蓝色圈出插件&#xff0c;如图所示&#xff1a; 安装完成后&#xff0c;需要重启VSCode 注册账号&#xff0c;如图所示&#xff1a; 然后在ChatGPT对话框中输入信息即可使用&#…

3款好用的IntelliJ IDEA ChatGPT插件

今天&#xff0c;给大家介绍3款好用的IntelliJ IDEA ChatGPT插件,各有千秋&#xff0c;可以帮我自动写代码&#xff0c;自动改善代码性能和安全并且生成视图对比&#xff0c;以及解释代码&#xff0c;优化代码&#xff0c;生成单元测试用例&#xff0c;更牛逼的是直接可以根据描…

VScode中添加chatGPT插件

第一步&#xff1a;在扩展中搜索chatgpt 第二步&#xff0c;点击chatGPT中文版进行安装&#xff0c;其他别的版本不能用&#xff0c;有些需要注册有chatGPT的账号 下面就可以测试使用了~~~ 第一步&#xff0c;安装完成以后&#xff0c;会在左侧栏中出现下面这样的图标&#xff…

ChatGPT插件到底意味着什么?

这几天关于ChatGPT支持插件的消息铺天而来&#xff0c;但其实很早OpenAI已经开放了API的申请访问和付费&#xff0c;各个公司基于API创建自己的应用&#xff0c;使得ChatGPT能够联网&#xff0c;或者做进一步处理早已经可以实现&#xff0c;那这个插件和API有何区别&#xff0c…

ChatGPT 86个插件全解读:让你的学习、工作、生活效率翻倍!

ChatGPT首次上线70个插件之后&#xff0c;目前已增加至86个&#xff0c;涵盖学习、工作、生活、娱乐、投资、购物、房产等各个领域&#xff0c;可以帮助用户将效率提升数倍以上。 下面「AIGC」开放社区将为大家解读这些插件的作用&#xff0c;方便选择适合自己的插件。 什么是…

ChatGPT使用介绍、ChatGPT+编程、相关组件和插件记录

文章目录 介绍认识ChatGPT是通过英汉互译来实现中文回答的吗同一个问题&#xff0c;为什么中英文回答不同 ChatGPT的使用对话组OpenAI APIAI智能绘图DALLE 2ChatGPT for Google插件 ChatGPT编程编写代码代码错误修正与功能解读代码评审与优化推荐技术方案编写和优化SQL语句在代…

ChatGPT版Office(Word/Excel/PPT)来了

来源&#xff1a;机器之心 从微软、谷歌到百度&#xff0c;大型科技公司正加速将生成式 AI 整合到他们的产品中。 刚刚&#xff0c;微软公司宣布将 ChatGPT 背后的技术与其低代码应用平台 Power Platform 捆绑在一起&#xff0c;推出新的生成式 CoPilot 人工智能体验&#xff0…

ChatGPT版必应认出之前「黑」它的小哥,直接放话:我的首要原则是不被你控制...

Pine 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT记起仇来&#xff0c;还真是不亚于人类啊&#xff01; 这不前几天有个小哥&#xff0c;公然在网上扒皮ChatGPT版必应。 结果现在这位小哥再去问他时&#xff0c;它直接来了句&#xff1a; I remember you&#xff01; 甚至还放出…

如何将文档上传到 ChatGPT

OpenAI 一直在为 ChatGPT 添加几个有趣的功能&#xff0c;包括对网页浏览和插件的支持。但是&#xff0c;仍然没有办法本地上传文档并根据其上下文提出问题。当然&#xff0c;有些用户可以在他们的数据上训练 AI 聊天机器人&#xff0c;但并不是每个人都了解如何设置工具和库。…

微软正式发布 ChatGPT 版必应搜索和 Edge 浏览器

微软公司周二发布了新版必应搜索引擎&#xff08;https://www.bing.com/new&#xff09;和 Edge 浏览器&#xff0c;采用了 ChatGPT 开发商 OpenAI 的最新技术&#xff0c;旨在通过率先提供更具对话性的网络搜索和创建内容的替代方式&#xff0c;削弱谷歌的搜索霸主地位。 一夜…

奇点出现?AI有了情感和意识:ChatGPT 版必应发飙!怒斥人类:放尊重些,

上一篇&#xff1a;铁饭碗也不铁了 谁能想到&#xff0c;ChatGPT版必应竟能像人一样发脾气&#xff01; 事情是这样的。 前两天一个华人小哥不是“黑”了ChatGPT版必应&#xff0c;扒出它的小名叫Sydney嘛。 这可把一众网友们兴奋坏了&#xff0c;摩拳擦掌地准备去调戏它一番。…

微软ChatGPT版必应被黑掉了,全部Prompt泄露!

开发者&#xff08;KaiFaX&#xff09; 面向全栈工程师的开发者 专注于前端、Java/Python/Go/PHP的技术社区 ChatGPT 版必应搜索也有「开发者模式」。 如同 ChatGPT 这样强大的 AI 能否被破解&#xff0c;让我们看看它背后的规则&#xff0c;甚至让它说出更多的东西呢&#xff…

ChatGPT版必应疑似「发疯」?微软紧急限制回答数目

源 | 机器之心 大家好&#xff0c;这里是 NewBeeNLP。 未来的 AI 搜索&#xff0c;可不是竞价排名这么简单。 微软的 ChatGPT 版必应搜索上线之后&#xff0c;很多人都说它能代替谷歌搜索&#xff0c;成为下个最流行的科技产品。十天的公开测试过后&#xff0c;情况如何了&…