【SQLPlanet】基于迁徙率等指标浅析拍拍贷逾期数据(未完待续)

article/2025/9/18 1:50:18

在这里插入图片描述

1、背景介绍

拍拍贷是一家金融科技公司,2007年成立于上海,并在2017年11月10日成功于美国纽交所上市。根据官方消息,截至2018年9月30日,拍拍贷累计成交额已突破1300亿,15-29天及30-59天的逾期率分别为0.83%和1.21%,自2015年,拍拍贷推出魔镜系统用于对每一笔借款进行风险评估,通过对借款人资质审核并预测未来逾期概率,对相应风险进行定价,基于大数法则保证整体的可观收益。

本文将从整体业务及通过迁徙率等指标进行分析,从数据中走进拍拍贷,了解拍拍贷平台在业务中出现过的问题及采取的信贷策略。

2、数据处理

2.1数据来源

数据来自拍拍贷真实业务数据(点击查看)从2015-01-01到2017-01-30的所有信用标的10%sample样本。

LCIS表中标的特征表共有37个字段,包括借款人ID,借款金额,期限,利率,年龄等,详见下图。Listingid为主键。其中历史信用记录相关字段均是拍拍贷内部的记录,即只有在拍拍贷有过历史借款的用户才有这部分记录,首次借款用户历史信用记录各项均默认为0。
在这里插入图片描述

2.2数据清洗

  1. 将LCSI表中的数据导入navicat premium。
  2. 更改原数据中ListingId和recorddate两个字段的列名及数据格式。
ALTER TABLE lcis CHANGE ListingId 用户编号 VARCHAR(10);
ALTER TABLE lcis CHANGE recorddate 记录日期 VARCHAR (10);
  1. 数据重复值和异常值检查。检查发现记录日期是2016/9/30的数据有重复;另外,除5个记录日期外,存在非标准日期数据;后续均需删除。通过和前文列示的数据字典进行对比,排查其他字段的异常值、空值。(仅举例部分字段)
SELECT 记录日期,COUNT(*) AS 记录数量, COUNT(DISTINCT 用户编号) AS 不重复记录
FROM lcis
GROUP BY 记录日期
ORDER BY COUNT(*) DESC;

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
4. 为后续数据处理做准备,创建一张新表。添加逾期量化状态列和逾期账期列。

CREATE TABLE lcis_new AS SELECT DISTINCTlcis.*, ( CASE WHEN 标当前状态 = '逾期中' THEN 1 ELSE 0 END) AS 逾期量化状态,(CASE WHEN 标当前状态 = '逾期中' THENCONCAT('M',FLOOR(标当前逾期天数 / 30) + 1)ELSE 'C' END) AS 逾期账期
FROMlcis;
  1. 在新表中剔除异常值和重复值
DELETE FROM lcis_new
WHERE (手机认证 NOT IN ('成功认证','未成功认证'))OR (户口认证 NOT IN ('成功认证','未成功认证'))OR (记录日期 NOT IN ('2016/9/30','2016/10/31','2016/11/30','2016/12/31','2017/2/28'))OR (标当前状态 NOT IN ('正常还款中','逾期中','已还清'));
  1. 检查新表重复数据情况
SELECT 记录日期,COUNT(*) AS 记录数量, COUNT(DISTINCT 用户编号) AS 不重复记录 
FROM lcis_new
GROUP BY 记录日期
ORDER BY COUNT(*) DESC;

在这里插入图片描述
至此,已完成数据的初步处理工作,共得到有效数据291230条。

2.3数据初步探索

在数据处理中,可看到所有数据记录时间可分为16年9月-12月及17年2月底这5个时间段。接下来以最新记录日期即17年2月底的数据为样本,根据借款时间作为分组条件,初步观察15年1月至17年2月每月的逾期占比等情况。

SELECT
(CASE WHEN YEAR(借款成功日期)=2015 AND MONTH(借款成功日期)=1 THEN '15年1月'WHEN YEAR(借款成功日期)=2015 AND MONTH(借款成功日期)=2 THEN '15年2月'WHEN YEAR(借款成功日期)=2015 AND MONTH(借款成功日期)=3 THEN '15年3月'WHEN YEAR(借款成功日期)=2015 AND MONTH(借款成功日期)=4 THEN '15年4月'WHEN YEAR(借款成功日期)=2015 AND MONTH(借款成功日期)=5 THEN '15年5月'WHEN YEAR(借款成功日期)=2015 AND MONTH(借款成功日期)=6 THEN '15年6月'WHEN YEAR(借款成功日期)=2015 AND MONTH(借款成功日期)=7 THEN '15年7月'WHEN YEAR(借款成功日期)=2015 AND MONTH(借款成功日期)=8 THEN '15年8月'WHEN YEAR(借款成功日期)=2015 AND MONTH(借款成功日期)=9 THEN '15年9月'WHEN YEAR(借款成功日期)=2015 AND MONTH(借款成功日期)=10 THEN '15年10月'WHEN YEAR(借款成功日期)=2015 AND MONTH(借款成功日期)=11 THEN '15年11月'WHEN YEAR(借款成功日期)=2015 AND MONTH(借款成功日期)=12 THEN '15年12月'WHEN YEAR(借款成功日期)=2016 AND MONTH(借款成功日期)=1 THEN '16年1月'WHEN YEAR(借款成功日期)=2016 AND MONTH(借款成功日期)=2 THEN '16年2月'WHEN YEAR(借款成功日期)=2016 AND MONTH(借款成功日期)=3 THEN '16年3月'WHEN YEAR(借款成功日期)=2016 AND MONTH(借款成功日期)=4 THEN '16年4月'WHEN YEAR(借款成功日期)=2016 AND MONTH(借款成功日期)=5 THEN '16年5月'WHEN YEAR(借款成功日期)=2016 AND MONTH(借款成功日期)=6 THEN '16年6月'WHEN YEAR(借款成功日期)=2016 AND MONTH(借款成功日期)=7 THEN '16年7月'WHEN YEAR(借款成功日期)=2016 AND MONTH(借款成功日期)=8 THEN '16年8月'WHEN YEAR(借款成功日期)=2016 AND MONTH(借款成功日期)=9 THEN '16年9月'WHEN YEAR(借款成功日期)=2016 AND MONTH(借款成功日期)=10 THEN '16年10月'WHEN YEAR(借款成功日期)=2016 AND MONTH(借款成功日期)=11 THEN '16年11月'WHEN YEAR(借款成功日期)=2016 AND MONTH(借款成功日期)=12 THEN '16年12月'WHEN YEAR(借款成功日期)=2017 AND MONTH(借款成功日期)=1 THEN '17年1月'WHEN YEAR(借款成功日期)=2017 AND MONTH(借款成功日期)=2 THEN '17年2月'END) AS 借款月份,SUM(借款金额) AS 总金额,ROUND(SUM(借款金额)/COUNT(借款金额),0) AS 平均借款金额,COUNT(借款金额) AS 用户数量,SUM(逾期量化状态),CONCAT(ROUND(SUM(逾期量化状态)*100/COUNT(逾期量化状态),2),'%') AS 逾期占比,CONCAT(ROUND(COUNT(逾期量化状态)*100/(SELECT COUNT(逾期量化状态) FROM lcis_new WHERE 记录日期 = '2017/2/28'),2),'%') AS 用户占比
FROM lcis_new
WHERE 记录日期 = '2017/2/28'
GROUP BY 借款月份 WITH ROLLUP;

从下表大致可以看出15年11月之前的逾期占比及用户占比大幅低于其他时间段整体数据,出现该现象的情况很有可能是因为平台对此段时间之前的逾期数据都计提坏账并核销,而非其他时间段经营管理不善所致。
在这里插入图片描述在这里插入图片描述
这里需要重点指出的是逾期率并非越低越好,对于平台而言,合理的风险定价及扣除坏账后的真实收益更为重要。针对高风险用户核定较低定价而对低风险则给定了较高定价会分别损伤出借人和借款人利益,最终导致平台业务难以为继。

现在我们已经知道从17年观测时间观察15年数据,对风险控制情况的了解意义不大(数据受计提坏账核销污染)。因此,后文选取进行分析的数据以借款时间是2016年为基准展开阐述。

3、数据分析

3.1业务数据概览

为更好的理解平台业务数据,从2017年2月28日记录的数据中,提取2016年度业务数据,分别为放贷总金额、用户数量及逾期数量3个字段,计算平均额度、逾期用户占比情况、用户占比及实际用户累计占比这4个指标,具体含义如下:

  • 平均额度:即额度总金额/用户数量,反映用户额度核给情况,一般受授信政策影响较大,若判定用户资质好,一般额度核给也会相对高。
  • 逾期用户占比:逾期用户数量/用户数量,判断在某一时点下,整体逾期情况。
  • 用户占比:即当月用户数量/当年度用户总数量。
  • 实际用户累计占比:即前N个月用户占比累加。

取数SQL和结果如下图:

SELECT 
(CASE WHEN MONTH(借款成功日期) = 1 THEN '1月'WHEN MONTH(借款成功日期) = 2 THEN '2月'WHEN MONTH(借款成功日期) = 3 THEN '3月'WHEN MONTH(借款成功日期) = 4 THEN '4月'WHEN MONTH(借款成功日期) = 5 THEN '5月'WHEN MONTH(借款成功日期) = 6 THEN '6月'WHEN MONTH(借款成功日期) = 7 THEN '7月'WHEN MONTH(借款成功日期) = 8 THEN '8月'WHEN MONTH(借款成功日期) = 9 THEN '9月'WHEN MONTH(借款成功日期) = 10 THEN '10月'WHEN MONTH(借款成功日期) = 11 THEN '11月'WHEN MONTH(借款成功日期) = 12 THEN '12月'END) AS 借款月份,
ROUND(SUM(借款金额)/10000,0) AS 总借款金额(万元),COUNT(用户编号) AS 用户数(个),SUM(逾期量化状态) AS 逾期数(个),
ROUND(SUM(借款金额)/COUNT(用户编号),0) AS 平均额度(元),
CONCAT(ROUND(SUM(逾期量化状态)*100/COUNT(用户编号),2),'%') AS 逾期用户占比,
CONCAT(ROUND(COUNT(用户编号)*100/(SELECT COUNT(用户编号) FROM lcis_new_2016),2),'%') AS 用户占比
FROM lcis_new_2016
GROUP BY 借款月份 WITH ROLLUP;

在这里插入图片描述
将结果数据导出并整理为下表,从表中的条形图可以得出,平均额度整体呈现出先下降后上升的趋势,逾期用户占比整体呈下降趋势,用户占比及累计占比均呈上升趋势。
在这里插入图片描述
同时,2016年总借款金额与平均额度走势较为接近,从下图可以看出1月-3月借款资金整体下降,4月-8月保持稳定的较低水平,9月-12月新增放量显著。
在这里插入图片描述
将新增借款用户数的年度平均增长速度与实际增长速度对比如下图所示,1月-3月较正常时序落后,4月-8月基本持平,9月-12月放量显著。

在这里插入图片描述
从以上数据规律中,很容易将2016年分为三大阶段,分别为1月-3月,4月-8月及9月-12月,初步猜测是由于拍拍贷在此期间调整信贷策略所致。为证实猜测,提取用户在这3个阶段的初始评级和逾期情况等相关数据,并进行分析。

SELECT (CASEWHEN MONTH(借款成功日期) IN (1,2,3) THEN '第一阶段'WHEN MONTH(借款成功日期) IN (4,5,6,7,8) THEN '第二阶段'WHEN MONTH(借款成功日期) IN (9,10,11,12) THEN '第三阶段'END) AS 借款月份,
初始评级,COUNT(用户编号) AS 用户人数,SUM(逾期量化状态) AS 逾期人数,
CONCAT(ROUND(COUNT(用户编号)*100/(SELECT COUNT(用户编号) FROM lcis_new_2016),2) ,'%') AS 用户占比
FROM lcis_new_2016
GROUP BY 借款月份,初始评级
ORDER BY 借款月份,初始评级;

在这里插入图片描述
导出结果数据,并将三个阶段用户群评级情况绘制成下图所示,可以看出:
在这里插入图片描述

  • 第一阶段:主力军的初始评级C(54%),剩余依次是评级B(19%)、AA(11%)、D(7%)、A(6%)次之,共五大类客群;
  • 第二阶段:主力军变更至初始评级为B(48%)的用户,剩余依次是初始评级C(25%)、A(14%)、D(7%)、AA(5%)共五大类客群;
  • 第三阶段:初始评级为C的客户与B的客户各占半壁江山(各占近42%),剩余依次是初始评级A(9%)、D(6%),主要客群精简至四大类。

客群变化如此之大,足以可见拍拍贷平台撮合用户借贷的偏好的确发生了变更。前文已经提到,逾期率并非越低越好,对于平台而言,合理的风险定价及扣除坏账后的真实收益更为重要,因此,平台需要做的是在风险承受范围内,权衡收益的得失。

那么,这三个阶段客群变更对业务整体逾期情况影响如何呢?


http://chatgpt.dhexx.cn/article/qiTxuOVS.shtml

相关文章

百度迁徙 迁入人口和迁徙规模爬虫

最近做COVID-19相关的课程项目,需要用到省级间人口迁移的数据。笔者参考改进了https://blog.csdn.net/qq_44315987/article/details/104118498 的城市间流动的代码,从百度迁徙爬取了数据,并将数据保存在同一张表内。 迁入人口 # coding:utf…

百度大数据迁徙

我记得,百度地图应该是2018年开始做每年春运出行大数据迁移,2019年加入了国庆的迁移大数据分析。这是纯免费的大数据分析数据,相当有意思,但是不作保存,每年做个记录,应该是件有价值的事。 从整体来看&…

什么是计算迁移

0 1 计算迁移背景 边缘计算将网络边缘上的计算、存储等资源进行有机融合,构建成统一的用户服务平台,按就近服务原则对网络边缘节点任务请求及时响应并有效处理。由于边缘节点能力、资源、带宽、能源等受限,计算迁移便异常重要。计算迁移是边缘…

迁徙数据平台简单介绍

引言 人口迁徙数据是研究人口流动、人口迁徙以及城市发展的重要数据源。近年来,受新冠肺炎疫情影响,以及互联网的快速发展,相关数据受到广泛关注与应用,以人口迁徙数据为基础的科学研究也层出不穷。在这里,就对几种常…

人口迁徙大数据(2019-2020年)

人口迁徙大数据具有极高的研究价值,特别是与城市群、疫情等重要话题结合起来,发表了很多核心期刊: 迁徙数据(1) 高德地图人口迁徙数据:2020年前6个月的400多万条数据,数据为日数据,…

【迁移学习】分布差异的度量以及迁移学习的统一表征方法

在文本分类中,由于文本数据有其领域特殊性,因此,在一个领域上训练的分类器,不能直接拿来作用到另一个领域上,这就需要用到迁移学习。 迁移学习是机器学习中重要的研究领域,ICML、NIPS、AAAI、ICIR等国际人工…

手把手实操系列|贷后迁徙率模型开发(上篇)

序言: 很多关注番茄风控的老铁们都知道,番茄风控的开篇就是从系统性的贷后评分卡开始的,关于贷后相关的内容,番茄不敢说是元老级别的公众号,但再怎么说也是先行者,之前的文章比如这些经典内容,您…

手把手系列|贷后评分(C)卡模型开发实操(全)

序言: 随着风控精细化的管理,番茄风控也就将现有的内容进一步迭代,更新贷后迁徙率模型的内容,同时也综合了星球社区中同学的一些新需求,给大家梳理了贷后迁徙率模型的文章。 希望对所有的风控人员在贷后相关的模型开发…

催收评分卡(三)迁徙率模型

关注公众号“ 番茄风控大数据”,获取更多数据分析与风控大数据的实用干货。 本文主要介绍迁徙率模型和还款率模型,至于失联模型,其实也不难做,难点是在于每家公司对失联客户的定义,主要是需要把多长失时间内失联的客户…

风险资产常用指标

目录 1.放款本金与本金余额 2.迁徙率 3.Vintage 4.不良率 5.损失率 6.回收率 7.入催率 8.首逾率 1.放款本金与本金余额 放款本金为每个月的放贷金额,本金余额为截止统计时点,所有未收回的本金金额,包括逾期未还本金与未到还款期限的待还本金…

前端数据分页——table表数据分页方法(1)

我们在页面展示一个table表格的时候,当数据量较大时,常常会考虑到数据分页的问题,数据分页一般有三种方式,分别是前端数据分页,后端数据分页,数据库分页。 前端数据分页:是把所有数据加载到前端…

利用vue实现树表格分页

目录 1. 准备工作 2. 动态树 2.1 在配置请求路径 2.2 使用动态数据构建导航菜单 2.2.1 通过接口获取数据 2.2.3 通过后台获取的数据构建菜单导航 2.3 点击菜单实现路由跳转 2.3.1 创建书本管理组件 2.3.2 配置路由 2.3.3 修改LeftAside组件 2.3.4 修改Main组件 3. …

Layui 表格分页控件

分页模块 – layui.laypage layPage 致力于提供极致的分页逻辑,既可轻松胜任异步分页,也可作为页面刷新式分页。 快速使用 laypage 的使用非常简单,指向一个用于存放分页的容器,通过服务端得到一些初始值,即可完成分页渲染: 基础参数选项 通过核心方法:laypage.rende…

ant design pro表格分页

需要用到表格的配置项pagination pagination{{ showQuickJumper:true, showTotal:function(total, range){ return( 共total条 ) } }} 效果: 这样可以选择跳转到某个页面,如果如数的数值大于最后一页,那么将跳转到最后一页&#xf…

Thinkphp+layui数据表格实现表格分页

项目场景:Thinkphplayui数据表格实现表格分页 提示:thinkphplayui数据表格分页,需要服务器端配合。之前在百度上一通乱搜也没找到解决方案。 问题描述 提示:这里描述项目中遇到的问题: 之前一看layui的文档一只以…

Vue+elementUI实现Table表格分页效果

VueelementUI实现Table表格分页效果 在毕业项目书写时,需要实现分页效果,而查找了大部分资料,大多是静态Table表格的分页,而该项目的数据大多是后台查询后的动态数据,于是我参考了网上的方法,并进行了一系列…

layui 树形表格分页功能

layui目前仅有常规表格分页及树形图,未能有树形图分页功能, 采用另外单独设立分页栏,分页改变时调用方法重载树形树形表格数据。 20230628更 感谢各位的喜欢,因不经常登录,这里贴一下部分代码,以供参考。 后台部分为…

JAVA_树状表格分页(layUI、treeTable.js)

效果图展示(PS:本人很懒,刚开始想在网上随意找一个就用,后来发现好像PHP的不少,JAVA的树状表格大多数跟我开始写的一样没有分页,导致数据量过大后加载过于缓慢被客户吐糟,最后没找到合适的就自己写了一个简单的demo&am…

关于layui表格分页问题

分页时注意 limitName必须与后端接收时的字段名相同 后端接收时需要注意page>0时需要page-1

vue 实现简单表格分页功能

使用框架实现表格展示和跳转功能&#xff0c;一直不懂原理。所以自己写一个简单的&#xff0c;加深理解。 布局分为2块&#xff0c;上面是表格展示数据&#xff0c;下面是点击按钮跳转。 效果图&#xff1a; 代码&#xff1a; <!DOCTYPE html> <html lang"en&q…