新网银行模型竞赛点评-小微风控算法大赛-早期风险识别

article/2025/8/3 22:14:40

最近学生论文辅导比较多,很久没更新文章了。这段时间新网银行模型竞赛
开始了,我也凑个热闹。

大赛背景
小微企业在经济发展过程中发挥着非常重要的作用、促进小微企业普惠金融服务是国家政策大力支持的方向,如何充分运用数字化风险评估手段解决小微企业面临融的资难、融资慢、融资贵问题,也是金融机构关注的重要问题,新网银行以建设“新一代数字科技普惠银行”为愿景, 始终坚持技术立行,通过敏捷的信息科技体系和精准的智能风控体系,推动数字普惠金融业务发展。本次大赛以小微风控为主题,期待挑战者利用统计和机器学习模型,对小微企业数据充分探索,开发出区分效果好,稳定性高的风控模型,助力小微风控。

赛题描述
赛道A:小微风控算法大赛-早期风险识别

此赛道仅在读本科生可报名,若为在读研究生及以上,请报名赛道B:小微风控算法大赛-长期风险识别

本赛道需要选手基于所提供的数据构建模型准确预测小微客户早期风险,数据既包含经过脱敏处理的小微企业法人基本信息、历史借贷信息、申请行为信息、工商司法信息以及贷款申请后的早期风险表现数据,期望选手开发模型,对客户早期风险进行识别,帮助金融机构进一步提升模型在小微企业信贷风控中的信用风险识别和防范能力。

时间安排
报名(即日-11月2日)

报名方式:参赛选手于报名规定时间内在DataCastle大数据竞赛平台完成注册和报名。

初赛(即日-11月8日)

(1)初赛于DataCastle平台线上进行,选手需在DataCastle平台下载数据,在本地进行算法调试,并在DataCastle提交结果,提交数据文件为 .csv格式,utf-8编码。

(2)客观提交分公榜、私榜两部分,公榜成绩将在每次完成提交后,进入评分系统,并及时出分。公榜每天提交次数上限5次,提交文件格式错误将不计入当日成功提交次数内,当日总提交次数不能超过20次(详见“常见问题”)。私榜成绩将在团队选择提交公榜文件后(如未选择,则系统默认选择公榜最优成绩+最后提交文件提交至私榜),公榜截止后公布私榜排名。

公榜客观提交时间为:即日至2022-11-08 17:00:00;私榜选择文件时间为:2022-11-07 17:00:00至2022-11-08 17:00:00。

复赛(11月15日-11月19日)

(1)各赛道私榜排名前20名参赛团队进入复赛,进入复赛的队伍需在2022年11月14日24:00前提交选手身份证明材料和主观评审材料。

(2)主观评审材料提交。进入复赛的队伍需提交与私榜出分情况相同的模型和研究报告(包括报告正文、编程源代码)至组委会邮箱 stat@swufe.edu.cn 。报告文件夹名为:队号-队长姓名-比赛阶段(第X队-张三-复赛),组委会提供报告固定格式。

(3)报告正文统一为word或pdf格式,可附其余支撑材料。所有提交材料请打包压缩成zip格式,压缩包大小不超过300MB,压缩包命名格式为:队号-队长姓名-比赛阶段。

(4)组织专家进行线上评审,各赛道选拔5支队伍进入决赛。

(5)组委会将于11月19日公布进入决赛的队伍名单。

决赛(11月27日)

(1)各团队根据各自指导教师意见完善研究报告,并在2022年11月23日24:00之前将修改后的电子版研究报告提交到组委会邮箱。报告文件夹名为:队号-队长姓名-比赛阶段(第X队-张三-决赛)。

(2)决赛以答辩的形式开展,答辩主要包括对研究报告的陈述和答疑两个环节,团队推选1名队员进行研究报告的陈述。专家、观众提问,参赛选手答疑。

(3)决赛时间:2022年11月27日。

大赛奖项
以进入复赛的各赛道有效团队为基数,设置奖项如下

一等奖:10%/赛道

二等奖:20%/赛道

三等奖:30%/赛道

进入决赛答辩的队伍将角逐由新网银行提供的竞赛奖金:

数据菁英奖:12,000元,1队/赛道

数据英才奖:6,000元,2队/赛道

数据人才奖:3,000元,2队/赛道

各获奖队伍将获得证书及奖金,数据菁英奖、数据英才奖队伍的指导教师获得优秀指导教师证书。证书由承办单位盖章,四川省教育厅发布获奖通知。

评分标准
初赛评分规则:

根据初始最终私榜队伍排名(AUC)换算成绩,换算公式如下:

初赛评分 = MAX(100 - 初赛评分排名,0)

初赛设置公私榜,初赛结束后线上排名由公榜切换为私榜排名

复赛评分规则:

复赛评分 = 80%* MAX(100 - 初赛评分排名,0) + 20%*主观评审成绩

其中:主观评审成绩总分100,包含以下维度:报告完整性(20%) ,代码规范性(20%) ,问题分析和探索(30%),方案创新性(30%) ,每项维度打分,分为5个档次,优异-100分,优秀-90分,良好-80分,中等-70分,中等以下60分。

决赛评分规则:

决赛评分 = 60%*复赛成绩 + 40%*答辩成绩

答辩演示成绩总分100,评价维度如下:现场陈述(20%) ,现场问答(20%),问题分析和探索(30%),方案创新性(30%) ,每项维度打分,分为5个档次,优异-100分,优秀-90分,良好-80分,中等-70分,中等以下60分。

参赛与组队规则
所有参赛人员及队伍,视为已同意《DC竞赛作弊管理规则》及其他相关规定。队长对其队员的参赛行为负责

参赛对象:大赛向在校学生开放

本科生仅可选赛道A:小微风控算法大赛-早期风险识别;

研究生及以上(硕士/博士)仅可选赛道B:小微风控算法大赛-长期风险识别。

全国在校大学生(本科、硕士/博士生)均可报名参加,本科生仅能参加本科生赛道,硕士/博士生仅能参加研究生赛道,每支队伍由不超过4名参赛选手及1名指导老师组成,指导老师必须是参赛选手所属院校在职教师,1名学生至多加入一支队伍,鼓励同学们跨学校、跨年级、跨专业组队参赛。

每天提交次数上限:5次

目前有101个团队参赛,包括西南财经大学等多个211院校。只要是全国高校学生都可以参加,分为研究生和本科生两个赛道。研究生赛道难度要大些,需要关联多个表单才能限制提升模型性能。本科生赛道可以直接对数据建模。

在这里插入图片描述

作者花半个小时实验了一下,线下AUC得分很高,本科生赛道可以达到0.819,研究生赛道可以达到0.826.
在这里插入图片描述
在这里插入图片描述
但提交数据后,效果不佳,只能达到0.76多,说明这次新网银行的验证数据集和训练数据集是不同时间段的,模型存在显著的过度拟合。建议各位同学在选择算法时,采用避免过度拟合的算法。
这是目前排行榜,本科生赛道第一名已经上了0.78,说明目前部分高校学生已经有专业建模能力。
在这里插入图片描述

这是关于模型竞赛的数据说明:
100个风险特征(人口统计特征,贷款与查询记录,企业工商司法信息等),一个客户对应一行记录;

风险标签:1个,由客户借款后是否出现首期逾期等特征加工,二分类(0、1);

样本量:总计2.5万;训练集数量17884,正样本占比10%,测试集数量7116(公榜3522,私榜3594),正样本占比5%;

说明:相关数据经过脱敏,分层抽样、模拟转换等处理,不涉及客户隐私,不反映金融机构真实业务数据指标。
在这里插入图片描述

我们可以看出新网银行可能出于合规考虑,把变量真实业务名称都屏蔽了。其实这不利于模型竞赛,不方便大家衍生变量处理。lending club,home credit数据集都展示了真实变量。作者认为我们通过建模和数据挖掘就是为了挖掘重要变量,然后反馈业务线。如果变量名被屏蔽了,模型竞赛没有太大真实意义,期待主办方可以有更开放行为。
我方通过初步测试,发现query_13是最重要变量,可能是查询记录。
在这里插入图片描述
关于模型AUC提升,我建议大家在描述性统计,变量选择,衍生变量和调参上多做功夫。描述性统计不能忽略,有的变量是无意义的需要剔除。衍生变量可以略微提升模型。变量筛选和调参是重头戏,也是最耗时部分。

如果有机器学习论文专利定制服务,请联系作者。

今年最新的新网银行模型竞赛就为大家介绍到这里,如果大家对消费金融的风控模型技术感兴趣,想在这次竞赛中提升模型性能,欢迎了解系列课《python金融风控评分卡模型和数据分析微专业课(加强版)》。课程对描述性统计,变量选择,衍生变量,调参,stacking融合模型,非平衡数据处理,评分卡,xgboost,lightgbm,catboost建模都有详细描述。

版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。


http://chatgpt.dhexx.cn/article/7yuSRvNQ.shtml

相关文章

第三届全国大学生算法设计与编程挑战赛个人银首——>金奖

⭐️话说每次都是周末一大早开始比赛到下午两点吗,前一晚偷偷玩了会儿晚睡了,本来罚时令我与金擦肩而过的QAQ⭐️但11月2号下午看到查重后的获奖名单,检索自己的名字,赫然变成了金奖hh,看来有同学不老实被查重除名了&a…

国内算法竞赛平台汇总

01 竞赛平台 1. 天池大数据竞赛 网址:https://tianchi.aliyun.com/ 2. DataFountain 网址:https://www.datafountain.cn/ 3. Biendata 网址:https://biendata.com/ 4. DC竞赛 网址:http://www.dcjingsai.com/ 5. 京东JDATA …

第三届阿里云磐久智维算法大赛——GRU BaseLine

赛题 比赛链接:第三届阿里云磐久智维算法大赛-天池大赛-阿里云天池 (aliyun.com) 大赛概况 庸医只知头痛医头脚痛医脚,凡良医者,必会抽丝剥茧,察其根本,方得药到病除。第一届和第二届磐久智维算法大赛,我…

2022搜狐校园NLP算法大赛情感分析第一名方案理解和复现

目录 一、比赛和方案理解 baseline的缺陷 第一名的方案 数据维度变化 二、代码实现 第一名代码 swa——平均权重 baseline代码 三、效果展示 第一名的方案: a、adamW swa b、sgd swa baseline的方案 在知乎上看到2022搜狐校园NLP算法大赛情感分析第…

算法设计大赛

解题思路、源代码、运行结果都在图中。 1.实现strstr() 2.最后一个单词的长度 4.托普利茨矩阵 5.寻找数组的中心下标 7.有效的字母异位词 10.猜数字大小 11.验证回文串 13.搜索二维矩阵

算法“视”界杯来袭,2021腾讯广告算法大赛正式开启

全球算法达人注意啦,2021腾讯广告算法大赛强势归来!本届赛事围绕视频广告议题开设两大赛道——“视频广告秒级语义解析”与“多模态视频广告标签”两大前沿命题等你来战! 即日起至5月31日,2021腾讯广告算法大赛报名通道&#xff…

第二届同花顺算法大赛 | 2022 | AI算法

第二届同花顺算法挑战大赛 多领域的比赛机会,源自业务的海量数据,用算法解决真实难题,以竞赛提升个人能力 1.大赛背景 算法挑战赛平台,是同花顺旗下的人工智能与金融科技命题竞赛平台,携手高校人工智能研究所、产业各…

算法界的“视界杯”,2021腾讯广告算法大赛来了!

近年随着大数据人工智能的发展,算法竞赛层出不穷,不同于国内外其他算法竞赛,腾讯广告算法竞赛专注于广告领域,自2017年起,每年一度的腾讯广告算法大赛都与实际业务结合紧密,始终致力于解决广告技术在实际应…

算法大赛--第一题

代码 力扣 C语言 int strStr(char * haystack, char * needle){int lenhay strlen(haystack),lenneedle strlen(needle);if(lenneedle 0) return 0;if(lenhay<lenneedle) return -1;for(int i0;i<lenhay - lenneedle1;i){for(int j0;j<lenneedle;j){if(haystack[ij]…

2020腾讯广告算法大赛——算法小白的复盘

阅读助手 写在前面赛题介绍个人赛况代码开源-score 1.2【00】数据导入TI-ONE【01】按userid聚合(groupby)特征【02】word2vec训练【03】数据特征化【04】lgb模型训练【05】test分批次预测【06】合并和提交到COS存储桶 参考资料 写在前面 全文共计11958字&#xff0c;请合理使用…

第三届“马栏山杯” 国际音视频算法大赛

比赛简介 第三届“马栏山杯”国际音视频算法大赛如期而至&#xff01;本次大赛分为邀请赛、正式赛及现场颁奖交流分享三个阶段&#xff0c;通过汇集国内一线音视频项目的真实痛点&#xff0c;鼓励行业顶尖技术人才参与竞技&#xff0c;助力产出 Top 级的音视频算法方案&#x…

2023首届大学生算法大赛——补题

1. 拿饼干 内存限制&#xff1a;128Mb 时间限制&#xff1a;1s 题目描述 小明今天外出野炊。他的母亲为他制作了M种他喜欢的饼干&#xff0c;共有N块。每块饼干都被标了编号&#xff0c;从1一直标到N。第i块饼干的重量是W[i]。饼干种类的编号是T[i]&#xff0c;从1一直到M。…

2023首届大学生算法大赛 - 逆序对

一眼应该能看出来这道题朴素算法是冒泡排序&#xff0c;但是逆序对这类题要求复杂度小于等于O&#xff08;nlogn&#xff09;&#xff0c; 因此可以用线段树&#xff0c;树状数组&#xff0c;归并排序之类的试试。 洛谷上有一样的题&#xff1a;逆序对 - 洛谷 AC代码&#xff…

2023首届大学生算法大赛 - 村庄

读题可以发现&#xff0c;如果两个村庄不能互相连通&#xff0c;那就算作一对 &#xff08;a<b&#xff09;。 显然是可以用floyd全局多源最短路来做的&#xff0c;如果不存在最短路&#xff0c;那么就是不能互通&#xff0c;但是这道题的数据范围N<10^5&#xff0c;跑f…

算法“视”界杯上演十强争锋,大赛终极一战圆满落幕

​8月16日&#xff0c;2021腾讯广告算法大赛“决赛十强答辩&获奖名单公布”于线上顺利举行&#xff0c;本场直播共有9600余位技术同学在“腾讯广告视频号、腾讯营销学院、腾讯视频、腾讯优图、腾讯云AI和云社区”六大平台同步观看&#xff0c;这场精彩纷呈的算法竞技圆满落…

算法顶级比赛汇总

可参赛的算法比赛 阿里云天池大数据竞赛 时间&#xff1a;每年各个季度很多类型都会出题&#xff08;比赛总时间大概为两个月&#xff09; 内容&#xff1a;各个类型的算法题都会出、奖金上万不等 形式&#xff1a;在线提交&#xff08;提交后在线检查结果&#xff09;、离线…

URL与域名的含义

1、URL的含义和格式 用户使用浏览器访问网站时&#xff0c;需要在浏览器的地址栏中输入网址&#xff08;网站地址&#xff09;&#xff0c;这个网址就是URL&#xff08;Uniform Resource Locator&#xff0c;统一资源定位符&#xff09;。URL信息会通过HTTP请求发送给服务器&a…

如何在phpstudy设置多站点和二级域名

相信很多新手站长都使用过phpstudy来建立自己的站点吧&#xff0c;很多新手站长可能都习惯于直接将源码复制到根目录下&#xff0c;直接使用IP地址&#xff1a;127.0.0.1进行访问吧。可能很多人也发现了一些问题&#xff0c;就是自己在建立多个站点或者二级域名的时候会发现文件…

企业邮箱和邮箱域名是什么意思?它们有什么区别?

单说域名和邮箱很多人都知道其中的意思&#xff0c;那么合在一起的邮箱域名是什么意思呢?企业邮箱域名要怎么选呢?多人听说企业邮箱或者是域名邮箱这两个词&#xff0c;但是他们所代表的意思和区别却并不了解。 1、企业邮箱和邮箱域名是什么意思? 企业邮箱指的是以特定域名…

域名是如何变成IP的

本教程是博主个人心血&#xff0c;禁止转载&#xff01;&#xff01; 01_一次Http请求都干了啥 问题引入 我们上篇博客做了一个Http请求的抓包&#xff0c;里面只是介绍了抓到的大概有哪些内容。 好了&#xff0c;先做一个回顾。 上次我们说道&#xff1a;一次http请求分为三…