迁移学习在金融行业的应用探索

article/2025/10/12 23:09:58

摘要:通过迁移学习技术,解决少量数据(较少重叠样本和特征)和个性化(较少标记)的问题,从数据丰富的领域迁移到数据匮乏的领域。通过迁移学习在保证模型准确率的同时,也提高了建造模型的效率,快速解决问题。

关键词:迁移学习,联邦学习

1.引言

迁移学习(Transfer Learning)是一种机器学习技术,它通过将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。迁移学习同时也是一种优化,它允许在第二个任务上建模时取得快速进步和改善性能。

迁移学习其实离我们的生活并不遥远,人类的迁移学习能力其实是与生俱来的。例如,如果我们已经会打乒乓球,就可以类比学习打网球;已经学会英语,就可以类比着来学习其他语言;再如,如果我们已经会下中国象棋,就可以类比着下国际象棋。

根据学习方法的不同,迁移学习可以分为以下四个大类:基于实例的迁移学习(Instance Based Transfer Learning),基于特征的迁移学习(Feature Based Transfer Learning),基于模型的迁移学习(Model Based Transfer Learning)以及基于关系的迁移学习(Relation Based Transfer Learning)。其中比较热门的是基于特征和模型的迁移方式。

2.迁移学习与联邦学习的区别与联系

在迁移学习中,我们已有的知识叫做源域(Source Domain),要学习的新知识叫目标域(Target Domain)。在机器学习领域中,迁移学习研究如何将已有模型应用到新的不同的、但有一定关联的领域中。传统机器学习在应对数据的分布、维度,以及模型的输出变化等任务时,模型不够灵活、结果不够理想,而迁移学习放松了这些假设。在数据分布、特征维度以及模型输出变化条件下,有机地利用源域中的知识来对目标域更好地建模。另外,在有标定数据缺乏的情况下,迁移学习可以很好地利用相关领域有标定的数据完成数据的标定。

图 1 迁移学习过程示例

说到迁移学习,大家经常首先想到的是热词“联邦学习(联邦机器学习)”,联邦机器学习是一个机器学习框架,包括模型训练和模型推理两个过程。而迁移学习和联邦学习两者之间也是有明显区分的。联邦学习是把“碎数据”和“数据孤岛”连接起来,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。而迁移学习是从“大数据”到“小数据”的迁移,重点解决了“小数据”的问题,让知识可以从一个源领域迁移到另一个目标领域,是一种“举一反三”的学习能力。

两者之间又存在着紧密的联系,比如在进行联邦学习时常常需要做知识迁移,因为数据孤岛分布不均匀,有的大有的小。于是后来有专家提出的“联邦迁移学习”,这正是把联邦学习和迁移学习结合起来,发挥两种机器学习的优势。让不同机构在保护数据隐私的前提下合作,没有算法、领域、数据类型的限制,而且模型效果无损失。

3.迁移学习解决的主要问题

迁移学习中存在的三个研究问题,即“迁移什么”、“如何迁移”和“何时迁移”。而结合迁移学习的特性,从应用场景的角度,迁移学习解决的主要问题包括:

(1)小数据的问题。比如在网上销售一种新产品A,考虑到没有历史数据作为依据,无法建立模型对用户进行推荐。但用户买某个产品的同时同样有机会购买另外一些产品,所以如果知道用户在另外一个领域,已经有了积累的销售数据,比如产品B,利用这些数据建一个模型,结合用户买B产品习惯和A产品习惯的关联,我们就可以把B产品的推荐模型给成功地迁移到A产品的领域,这样,在数据不多的情况下可以成功推荐一些用户可能喜欢的A产品。这个例子就说明,我们有两个领域,一个领域已经有很多的数据,能成功地建一个模型,有一个领域数据不多,但是和前面那个领域是关联的,就可以把那个模型给迁移过来。

(2)个性化的问题。比如我们每个人都希望自己的手机能够记住一些习惯,这样不用每次都去设定它,我们怎么才能让手机记住这一点呢?其实可以通过迁移学习把一个通用的用户使用手机的模型迁移到个性化的数据上面。所谓的千人前面其实就是大量的用户数据分析,推荐最精准的功能产品,比如银行APP首页的展示,也是根据用户手机操作的偏好来排列展示,任何操作应该控制在3步以内。

4.迁移学习的实际应用

(1)机器人训练

在实际的机器人上训练模型是非常缓慢和昂贵的。从模拟中学习并且将知识迁移到现实世界的机器人上的方式能缓解这个问题,并且这种方面最近正得到越来越多的关注。例如自动驾驶汽车。早在5年前Udacity已经开源了它用来进行无人驾驶汽车工程纳米学位教学的模拟器,OpenAI 的 Universe平台通过视频游戏来训练无人驾驶汽车。

(2)图像理解

从目标识别到行为识别的很多图像理解任务已经运用了迁移学习。通常,这些计算机视觉任务需要大量有标签数据来训练模型,例如使用众所周知的 ImageNet 数据集。然而,当计算机视觉的情景稍有变化(例如从室内到室外、从静止摄像机变为移动摄像机)时,需要调整模型以适应新情况。迁移学习是解决这些适应问题的常用技术。

(3)推荐系统

迁移学习也可以用在推荐系统中,在某个领域做好一个推荐系统,然后应用在稀疏的、新的垂直领域。比如在图书商城搜索的行业书籍,可以应用到不同题材类型的电影。

(4)自然语言处理和文本挖掘

文本挖掘旨在从文本中发现有用的结构性知识并将其应用于其他领域中。在文本挖掘的所有问题中,文本分类旨在用不同的类标签标记新的文本文档。一个典型的文本分类问题是情感分类。在线论坛、博客、社交网络等在线网站上有大量用户生成的内容,能够总结消费者对产品和服务的看法非常重要。情感分类能够通过将评论分为正面和负面两个类别来解决这个问题。但是,在不同的域中,例如不同类型的产品、不同类型的在线网站、不同的行业,用户可能使用不同的词语表达他们具有相同情感的观点。因此,在一个域上训练的情感分类器可能在其他域上表现不佳。在这种情况下,迁移学习可以帮助调整已训练完成的情感分类器以适应不同的领域。

(4)个性化对话

先训练一个通用型的对话系统,然后再根据特定领域的小数据修正它,使得这个对话系统适应该特定领域的任务。比如,一个银行客户需要办理信用卡,他并不想回答所有繁琐的问题,例如信用卡种类,信用卡申请额度,信用卡还款方式、信用卡账单接收方式等。

图 2 个性化对话系统

5.金融领域迁移学习模型设计应用

(1)金融产品个性化设计

以智慧消费金融为例,通过机器学习设计,为信用良好的消费者人群提供定制化的金融服务,鼓励其进行消费。在这里智慧消费金融中,设计的数据特征包括消费者的资质信息、购买能力、购买偏好及商品特征等。而这些数据特征由不同的单位或公司进行管理。比如一个消费者的资质信息和购买能力可以从银行、工商、税务、房产等多个维度进行判断,对于不同商品或服务的购买能力,可以从社交网络中分析得出,而商品的特征可以由电商平台记录中获取。

图 3 智慧消费金融迁移学习

在这种场景下面临了数据隐私、数据异构融合的问题,传统的机器学习方法不能有效地解决。而利用迁移学习建立定制化模型,,同时解决数据的异构问题,克服传统AI技术的局限性。

(2)跨机构的金融产品迁移

比如在金融领域中,各家银行的风控模型存在不同,但模型设计的目标是一致的,起到风险防控、信用评级的作用。那么我们可以设计A银行的信用评估模型通过迁移学习的方式运用到B银行,对个人或者企业的信用进行评分评级。而这之间区别在于可能A、B银行因为所处地理位置不同导致客户群体分布不同,这时如果A、B银行都使用同一套信用评估模型,必然会造成评估结果的不准确。迁移学习很好的解决了这个问题,通过借鉴A银行模型中B银行相似的部分,可以建立起属于B银行独家的信用评估模型,给不同银行提供了个性化模型的可能性。

通过迁移学习的方式,将企业成长力模型迁移到了新的授信模型体系中。其中迁移主要体现在以下两个方面:

1. 企业成长力模型的迁移到调节项模型中。

2. “基础+附加”思想的迁移。

通过迁移学习的方式,我们成功建立了B银行的授信评估模型。整个模型的计算逻辑如下图所示:

图 4 模型计算逻辑

其中基础额度模型是选取最重要的几个指标所建立的模型,而调节项模型是通过迁移学习的方式迁移了企业成长力模型,再在企业成长力模型的基础上加以优化调节,使得模型更符合B银行的业务要求。其中调节优化包括:

1. 增加更多企业成长力模型并未涉及的特征,比如B银行要求的新的企业能力指标。

2. 子指标得到父指标的计算方式。

3. 针对B银行给出的验证数据进行各级指标的权重调整,使最终模型更适合B银行的业务对象。 

图 5 不同模型预测能力对比

6.结束语

迁移学习可以成为“小数据挑战”的技术解决方案。利用这些模型从数据丰富的领域迁移到数据匮乏的领域,那么久有可能使这些数据匮乏的领域更快地迈向一个以信息和知识为基础的社会。当我们见证人类历史最基本的人工智能革命之一时,迁移学习作为一个深入的研究领域脱颖而出,它激发了新的想法和思想,使之深入到智能的本质。

在金融业务不断开拓创新时,从产品设计、开发、测试整个流程中利用迁移学习,能够实现降本增效,控制风险,做到事半功倍。相信在未来不断探索中更多的金融应用场景会悄然而生。

参考文献

[1] 杨强 张宇 戴文渊 潘嘉林 著.《迁移学习》.机械工业出版社. 2020年

[2] 杨强.《人工智能专家如何解决金融难题》.北大金融评论总第3期. 2020年

[3] 机器之心.《什么是迁移学习?迁移学习的场景与应用》.知乎.2019年

作者介绍:盛瀚 北京银行


http://chatgpt.dhexx.cn/article/Egvi3qoa.shtml

相关文章

pytorch之迁移学习

文章目录 1.导入相关的包2.加载数据3.可视化部分图像数据4.训练模型5.可视化模型的预测结果6.场景1:微调ConvNet7.场景2:ConvNet作为固定特征提取器 实际中,基本没有人会从零开始(随机初始化)训练一个完整的卷积网络&a…

翻译: Transfer learning 迁移学习指南

这是您需要了解的有关经典迁移学习和深度迁移学习的所有信息。阅读本指南可改进您的模型训练并在更短的时间内获得更好的性能。 1. 背景 事情是这样的—— 至少可以说,在处理一项全新的任务时收集大量数据可能具有挑战性。 然而- 仅使用有限数量的训练数据获得…

迁移学习方法学习

目录 迁移学习的基础知识迁移学习的概念迁移学习的分类按目标域标签分按学习方法分按特征分类按离线与在线形式分 迁移学习的基本方法基于样本的迁移基于特征的迁移基于模型的迁移基于关系的迁移 深度迁移学习深度网络的可迁移性最简单的迁移学习——finetune finetune的使用技…

迁移学习实例

上一篇我们介绍了迁移学习的核心思想和流程,我们介绍一个实例来加深理解。 传送门:迁移学习概述 获取预训练模型 pytorch和tensorflow都封装了很多预训练模型。 pytorch通过工具包torchvision.models模块获取,主要包括AlexNet、VGG系列、 Res…

迁移学习与微调的区别

一、迁移学习: 1、从字面意义上理解是知识转移的学习方法,指一种学习方法;类比机器学习、深度学习等等概念; 2、把已训练好的模型参数迁移到新的模型来帮助新模型训练二、微调: 1、从字面意义上理解是小小的调整&…

迁移学习---举一反三

1.概念 迁移学习是指充分考虑数据、任务、或者模型的相似性,将在旧领域学习到的模型,应用到新的领域的一种学习过程。 通俗的讲就是把已经学习训练好的模型参数迁移到新的模型进行训练。考虑到大部分数据或任务是存在相关性的,所以通过迁移…

迁移学习基础

人类具有跨任务传输知识的固有能力。我们在学习一项任务的过程中获得的知识,可以用来解决相关的任务。任务相关程度越高,我们就越容易迁移或交叉利用知识。到目前为止所讨论的机器学习和深度学习算法,通常都是被设计用于单独运作的。这些算法…

学习迁移学习

学习迁移学习 一、相关背景 随着机器学习和数据挖掘不断发展,一个愈加明显的问题出现在人们面前:要想机器学习能够正常运转必须要保证训练集和测试集有相同的特征空间并且同分布。一旦分布改变,大多数模型往往要根据数据重建,这…

联邦迁移学习

本博客地址:https://security.blog.csdn.net/article/details/123573886 一、联邦学习的定义 横向联邦学习和纵向联邦学习要求所有的参与方具有相同的特征空间或样本空间,从而建立起一个有效的共享机器学习模型。然而,在更多的实际情况下&am…

迁移学习(二)

迁移学习综述(二)(学习笔记) A Comprehensive Survey on Transfer Learning 1.引言 迁移学习的目标是利用来自相关领域(称为源领域)的知识,以提高学习性能或最小化目标领域中需要的标记示例的数量。知识转移并不总是…

深度学习中的迁移学习介绍

迁移学习(Transfer Learning)的概念早在20世纪80年代就有相关的研究,这期间的研究有的称为归纳研究(inductive transfer)、知识迁移(knowledge transfer)、终身学习(life-long learning)以及累积学习(incremental learning)等。直到2009年,香港科技大学杨…

迁移学习综述

这是我根据北京邮电大学一位博士的讲解视频所归纳的笔记 视频地址:https://www.bilibili.com/video/BV1ct41167kV?spm_id_from333.337.search-card.all.click 正文 我们为什么需要迁移学习? 众所周知,AlphaGo是通过强化学习去训练&#x…

整理学习之深度迁移学习

迁移学习(Transfer Learning)通俗来讲就是学会举一反三的能力,通过运用已有的知识来学习新的知识,其核心是找到已有知识和新知识之间的相似性,通过这种相似性的迁移达到迁移学习的目的。世间万事万物皆有共性&#xff…

迁移学习简要

什么是迁移学习 迁移学习是一种机器学习方法,就是把任务为A的开发模型作为其的初始点,重新使用在任务为B的开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务。虽然大多数机器学习的新 算法都是为了解决单个任务而设计的…

迁移学习(Transfer),面试看这些就够了!(附代码)

1. 什么是迁移学习 迁移学习(Transfer Learning)是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都…

迁移学习

简介 好的机器学习模型需要大量数据和许多GPU或TPU进行训练。大多数时候,他们只能执行特定的任务。 大学和大公司有时会发布他们的模型。但很可能你希望开发一个机器学习应用程序,但没有适合你的任务的可用模型。 但别担心,你不必收集大量数据…

迁移学习(Transfer)

1. 什么是迁移学习 迁移学习(Transfer Learning)是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都…

2021-11-29 拿到第一个badger

Coursera课程的前三节 What is data science Tool of data science Methodology of data science 感觉更像是阅读理解 今天拿到了第一个badger 准备花一周把剩下俩阅读理解拿了,开始搞实战部分 我走得很慢,但是从来不停下

Postgersql神器之pgbadger安装配置

文章目录 1.介绍2.安装pgbager3.参数调整3.1相关参数内容3.2 重启db4.配置apache5.安装libtext-csv-perl,6.手动产生报告 7.排程自动产生分析报告7.2脚本授权:7.3设定crontab7.4检视pgbadger日志分析报告 1.介绍 pgbadger是postgresql 三大神器之一:pg_…

BoltDB,RocksDB,PebbleDB,BadgerDb简介及测评

几个常用数据库性能分析 ​ 最近公司需要选型一款单机KV数据库来做业务承载,所以我对比了目前市面上比较流行的几个KV数据库并记录下来,包括boltdb,rocksdb,pebbledb,badgerdb四款,我将简单分析一下各数据库的特点,最后用自己的简…