大咖 | 王汉生:从数据到价值的转化,回归分析的“道”与“术”

article/2025/10/11 0:54:44




摘自《数据思维》 作者:王汉生


学过统计学的同学们都知道一件事情,回归分析师数据分析的一个非常重要的模型方法。而且这些模型很可能是线性的、非线性的,也可能是参数的、非参数的,甚至是一元的、多元的,低维的、高维的,不尽相同。所以,把数据转化为价值,需要一个非常重要且精妙的思想方法:回归分析。


另外,这些都是在“术”的层面讨论回归分析。除了“术”,回归分析还有一个更高的“道”的层面。


回归分析的“道”


在这个层面,回归分析可以被抽象成为一种重要的思想。在这种思想的指引下,人们可以把一个业务问题定义成一个数据可分析问题。什么样的问题可以被看作数据可分析问题呢?只需要回答两点:第一,Y是什么;第二,X是什么。


Y,俗称因变量,即因为别人的改变而改变的变量。在实际应用中,Y刻画的是业务的核心诉求,是科学研究的关键问题。


举一个征信方面的例子。对于征信而言,业务的核心指标是什么?就是隔壁老王找我借钱,结果有两种:他还给我还是不还给我。如果还,定义老王的Y=0,这说明老王是好人;如果不还,定义老王的Y=1,这说明老王是坏人。这就是征信的核心业务诉求,即因变量Y。在这种情况下,因变量是一个取值为0-1的变量,俗称0-1变量。



而对于车险而言,业务的核心指标就是是否出险。比如隔壁老王买了我家车险,接下来12个月,他是否会出险呢?如果他出险,定义老王的Y=1,这说明老王是个马路杀手;如果他不出险,定义老王的Y=0,这说明老王是个天使。这种情况下,因变量Y又是一个取值为0-1的因变量。



对于车险而言,还有一个核心的业务指标,就是赔付金额。也就是说,一旦出险,保险公司到底要赔多少。例如,老王、老李都买了我家车险,结果这两个客户都出险了。老王属于轻微刮蹭,保险公司赔付600元。那么,对于赔付金额这个业务指标而言,老王的因变量Y=600(元)。老李在高速公路上出了一次大车祸,人和车都伤得不轻,保险公司赔付60000元。那么,老李的因变量Y=60000(元)。这种情况下的因变量,即赔付金额,是一个连续的取值为正的因变量。如果再取一个对数,那么就是一个取值可以是正负无穷的、连续的因变量。


人类医学的一个重要使命就是攻克癌症,为此,科学家需要理解不同类型癌症的形成机制。隔壁老王,还有马路对面的老李,平时看起来身体都倍儿棒,吃嘛嘛香。可是,老王得了某种癌症,而老李没有。对于这个问题,老王的因变量Y=1,表示老王是个倒霉蛋;而老李的因变量Y=0,表示老李不是倒霉蛋。因此,这又是一个取值为0-1的变量。



所以,我们可以得出结论:Y就是实际业务的核心诉求,或者科学研究的关键问题。


X是什么?


X就是用来解释Y的相关变量,可以是一个,也可以是很多个。我们通常把X称作解释性变量。回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。那么,X到底是什么样的?


对于征信而言,我们已经讨论了,Y=0或者1,表示隔壁老王是否还钱,这是业务的核心指标。当老王找我借钱的那个时刻,我并不知道老王将来是否会还钱,也就是说,我不知道老王的Y。怎么办?我只能通过当时能够看得到的,关于老王的X,去预测老王的Y。这种预测是否会100%准确呢?答:基本不可能。但是,希望能够做得比拍脑袋准确,这是非常有可能的。为此,我们需要寻找优质的X。


举一个例子,假设老王想找我借1万元现金,我得想想,他会还吗?此时,如果知道他家境富裕,房产价值几千万元,我就不会担心他不还钱。因为如果他不还钱,可以用他的房子进行抵押。这说明充足的实物资产,尤其是可以抵押的实物资产,是有可能极大地影响一个人的还钱行为的。如果这个业务分析是正确的,那么可以定义很多X,用于描述老王的财产情况。例如,X1表示是否有房;X2表示是否有车;X3表示是否有黄金首饰可以抵押,等等。这些X都是围绕老王的实物资产设定的。


除了实物资产,老王还有哪些特征有可能影响他的还钱行为呢?如果老王月工资收入10万元,那么还款1万元,不是小菜一碟吗?相反,如果老王月工资收入1000元,估计吃饭都有问题,哪来的钱还呢?这说明老王的收入可能同他的还款行为有相关关系。那么,是否可以构造一系列的X,用于描述老王的收入情况呢?例如,可以重新定义X1是老王的工资收入;X2是老王的股票收入;X3是老王太太的收入,等等。于是,朴素的业务直觉又引导产生了一系列新的X变量,它们都是围绕老王的收入设定的。


除了实物资产、收入,老王还有什么值钱的呢?有,老王有自己在社交圈中的尊严。就像电影《老炮儿》里面的顽主六爷那样,面子老大了,不会为了万把块钱去赖账,然后让街坊邻居、同事朋友都笑话,丢不起那人。如果老王是一个这样的人,那他的还款意愿会很强烈。这个朴素的业务直觉说明,一个人的社交圈即他的社交资产是可以影响他的还款行为的。如果这个直觉是对的,那么哪些指标能刻画一个人的社交资产呢?例如,定义X1是老王的微信好友数量;X2是他的微博好友数量;X3是他的电话本上的好友数量;X4是他的QQ好友数量,等等。又可以生成一系列新的X变量,它们都是围绕老王的社交资产设定的。


由此可以看出,对于征信这个业务问题而言,简单地进行头脑风暴,就产生了许多X变量。所以,依赖于人们的想象力以及数据采集能力,可以产生成千上万,甚至上百万、上千万个X变量。有了X,也就有了Y。至此,回归分析“道”的使命已经完成,因为一个业务问题已经被定义成数据可分析问题。


回归分析的“术”


接下来,从“术”的层面探讨,回归分析还要完成什么使命。一般而言,至少对于参数化的线性回归模型来说,它要完成三个重要的使命。


使命1:回归分析要去识别并判断,哪些X变量是同Y真的相关,哪些不是。而那些不相关的X变量会被抛弃,不会被纳入最后的预测模型。因为不干活的人多了会捣蛋,即没有用的X不会提高Y的预测精度,而且会狠狠地捣蛋,拉后腿,所以必须抛弃。关于这方面的统计学论述很多,以至于统计学中有一个非常重要的领域,叫做“变量选择”。


使命2:有用的X变量同Y的相关关系是正的还是负的。也就是说,要把一个大概的方向判断出来。例如,对于老王的借贷还款行为而言,老王的股票收入同他的还款行为可能性是正相关,还是负相关?如果是正相关,那么老王的股票收入越高,还款能力越强,我越敢借钱给他;如果是负相关,那么老王的股票收入越高,说明他赌性越大,我越不敢借钱给他。


使命3:赋予不同X不同的权重,也就是不同的回归系数,进而可以知道不同变量之间的相对重要性。例如,老王、老李都找我借钱。老王每月基本工资X1=1(万元),但是股票收入X2=0。老李恰恰相反,没有基本工资,因此X1=0,但是每个月股票收入X2=1(万元)。请问哪一个还款能力更强?请注意,他们的月总收入都是1万元。但他们的还款能力恐怕是不同的。此时,如果我们能够通过数据建模,赋予X1和X2不同的权重,也就是不同的回归系数,这个问题就容易回答了。


这就是回归分析要完成的三个使命:识别重要变量;判断相关性的方向;估计权重(回归系数)。


简单总结一下。什么是回归分析?从“道”的层面而言,回归分析就是一种把业务问题定义成一个数据可分析问题的重要思想。而从“术”的层面,回归分析要完成三个重要的使命。


再举一个例子,有一次参观一家世界500强的制造企业,对方意识到,数据之于企业非常重要。因此,集团特意成立了大数据部门,购买了几百台高性能服务器,并配备所有需要的存储、软硬件环境,以及人才。


然后,数据部门的老大非常骄傲地介绍他们这个部门计算机有多牛,做了哪些有趣的分析。但是,从熊大的角度看,这些分析都是趣味性很大,可没有朴素的业务价值。


熊大终于忍不住问了一个问题:“请问,咱们大数据部门,在集团内部主要支持哪些业务部门?”对方腰板一挺,大声回答:“所有业务部门!”


大家觉得可信吗?反正我不信。企业这么大,实话实说,一定有大量的甚至大多数业务部门同数据无关,至少现在是这样。就在这时,旁边的一个业务部门的老大忍不住了,说:“不对啊,我们就觉得你们对我们支持不够!没什么支持啊!”数据部门老大很生气:“你提需求啊!只要你提需求,我都能帮你搞定。”结果业务部门老大一脸懵圈:“我提不出需求啊。”


这是一个非常典型的问题。业务部门就是数据部门的客户,可是,客户只知道自己需要数据分析支持,但是提不出需求。为什么?大家还记得回归分析的理念吗?即从道的层面帮助我们把业务问题定义为数据可分析问题。而业务部门的绝大多数人员没有受过这样的训练,因此,无法洞见自己正在操心的业务问题,其实是数据可分析的。为此,他只需要把Y定义清楚,给一些关于X的想法,剩下的事情,数据分析的小伙伴们就可以全力以赴了。


所以,从这个角度看,数据之于企业的价值,最需要被普及教育的,不是数据分析部门,而是业务部门。当然,数据分析部门也需要。只有全员都具备朴素的数据价值观,都使用同一种回归分析的语言,需求才有可能被说清楚。




本文节选自:《数据思维——从数据分析到商业价值》

中国人民大学出版社



大型网站架构技术

程序员修炼之道

大型web系统数据缓存设计

基于 Redis 实现分布式应用限流

Cache缓存技术全面解析

京东到家库存系统分析

Nginx 缓存引发的跨域惨案

浅谈Dubbo服务框架

数据库中间件架构 | 架构师之路

MySQL优化精髓



看完本文有收获?请转发分享给更多人


欢迎关注“畅聊架构”,我们分享最有价值的互联网技术干货文章,助力您成为有思想的全栈架构师,我们只聊互联网、只聊架构!打造最有价值的架构师圈子和社区。


长按下方的二维码可以快速关注我们



http://chatgpt.dhexx.cn/article/ToQpk3oi.shtml

相关文章

李宏毅深度学习--《Backpropagation》

李宏毅深度学习 Gradient Descent of neural network: n e u r a l n e t w o r k neural\ \ network neural network的参数: θ { w 1 , w 2 , ⋯ , b 1 , b 2 , ⋯ } θ\{w_1,w_2,\cdots,b_1,b_2,\cdots \} θ{w1​,w2​,⋯,b1​,b2​,⋯}计算参数 θ…

郑宇:多源数据融合与时空数据挖掘(转载)

来自: https://mp.weixin.qq.com/s?__bizMzAwMTA3MzM4Nw&mid2649440531&idx1&snd9c92b1f157ee37c7c6e185919a3ffbb&chksm82c0a897b5b721810f4d795cc144d309086274a9071515e727f9f420d7ffb7f06c9b376557ee&scene21#wechat_redirect 和https:/…

近10年数据智能团队建设,联想总结了由内而外的发展经验 | 专访联想集团副总裁田日辉...

来源:大数据文摘 本文约3300字,建议阅读5分钟。 本文为清华大学大数据研究中心联合大数据文摘发起的年度白皮书《顶级数据团队建设全景报告》系列专访的第四篇内容。《报告》囊括专家访谈、问卷、网络数据分析,力求为行业内数据团队的组建和高…

谷俊丽:基于大数据的深度学习

嘉宾介绍:谷俊丽,博士学历,毕业于清华大学-美国University of Illinois Urbana-champaign大学,在清华期间作为核心人员研发过超长指令字数字信号处理器,在美期间曾参与UIUC超级计算机上的研究工作,并工作实…

MyBatis从入门到精通(1):MyBatis入门

作为一个自学Java的自动化专业211大学本科生,在学习和实践过程中”趟了不少雷“,所以有志于建立一个适合同样有热情学习Java技术的参考“排雷手册”。 最近在读刘增辉老师所著的《MyBatis从入门到精通》一书,很有收获,于是将自己学…

给力!低代码开发平台广州流辰信息科技助您增辉创价值!

低代码平台开发公司流辰信息深耕行业多年,一直以市场为导向,凭借敏锐的市场洞察力砥砺前行、拼搏进取,提升研发创新能力,广州流辰信息科技与各新老客户朋友风雨同舟,携手共创宏伟新蓝图! 一、熔铸前沿科技 …

汇聚数据库创新力量,加速企业数字化转型

2022年12月29日,以“汇聚数据库创新力量,加速企业数字化转型”为主题的openGauss Summit 2022在线上举行。会上,openGauss社区理事会理事长江大勇对外公布了最近社区及生态进展,并宣布推出资源池化架构,实现软硬融合&a…

【金猿人物展】龙盈智达首席数据科学家王彦博:量子科技为AI大数据创新发展注入新动能...

‍ 王彦博 本文由龙盈智达首席数据科学家王彦博撰写并投递参与“数据猿年度金猿策划活动——2022大数据产业趋势人物榜单及奖项”评选。 ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 回顾2022年大数据行业发展,令人感触最深的是数字经济时代对“数据安全”和…

MyBatis从入门到精通(一):MyBatis入门

最近在读刘增辉老师所著的《MyBatis从入门到精通》一书,很有收获,于是将自己学习的过程以博客形式输出,如有错误,欢迎指正,如帮助到你,不胜荣幸! 1. MyBatis简介 ​ 2001年,Clinton …

沈定刚,雷柏英,李超 | Cell Press Live:人工智能在医学影像中的应用

交叉学科 Interdisciplinary 医学影像是临床医疗诊断的重要依据之一。近些年来,随着信息技术的飞速发展,人工智能即AI也更加广泛地应用于医学影像的处理分析中,包括对图像的分割分类及预测等。AI提高了诊断的精准程度和效率,同时也…

汇纳科技张宏俊:加强布局AI大数据,为实体商业服务

数字经济是继农业经济、工业经济之后的主要经济形态,更是稳定经济,推动经济转型的最强劲动力之一。在今年两会政府工作报告中,数字经济的关注程度远比以往更高,首次以“单独成段”的方式进行表述,并重点明确了“深入实施创新驱动发展战略,巩固壮大实体经济根基”。 从中不…

【Java架构:基础技术】一篇文章搞掂:MyBatis

本文篇幅较长,建议合理利用右上角目录进行查看(如果没有目录请刷新)。 本文主要总结于刘增辉的《MyBatisc从入门到精通》一书,有兴趣的朋友可以自行研读 建议仔细研读官方文档: http://www.mybatis.org/mybatis-3/zh/ …

Oracle的minus使用

Oracle的minus使用 minus 连接两个结果集,最终生成一个结果集。 功能是:第二个结果集,不会出现在最终结果集中; 如果第一个结果集的内容,在第二个结果集之内有包含,则包含的部分在最终结果集被舍弃。 其实…

MySQL MINUS-差集 [猿教程]

https://yuanjiaoc.com/tutorial/article/10143 在本教程中,您将了解 SQL MINUS 运算符以及如何在 MySQL 中使用 join 模拟 MINUS。 请注意,MySQL 不支持 MINUS 运算符。本教程向您展示如何使用连接子句在 MySQL 中模拟 MINUS 运算符。 SQL MINUS 运算符…

oracle函数之 minus

“minus”直接翻译为中文是“减”的意思,在Oracle中也是用来做减法操作的 Oracle的minus是按列进行比较的,所以A能够minus B的前提条件是结果集A和结果集B需要有相同的列数,且相同列索引的列具有相同的数据类型。此外,Oracle会对m…

Sql server中intersect, minus的用法

Sql server中intersect, minus的用法 一,Intersect Intersect常用来选择两个表格中相关联的事物,它是对两个SQL语句所产生的结果作处理的.它的作用有点像and的用法,就是说所选择的这个值要存在于第一句和第二句才会被选择出,上面…

编译原理 C-Minus 语法分析(Flex / Bison)

C-Minus 源代码 语法分析 文章目录 C-Minus 源代码 语法分析一、实现目标二、实现过程1. 综述2. 实现功能介绍(1)检测词法错误(2)检测文法错误(3)生成语法分析树 3. 代码详解(1)synt…

编译原理 C-Minus 代码生成(Flex / Bison)

C-Minus 源代码 代码生成 文章目录 C-Minus 源代码 代码生成一、实现目标二、实现过程(一)内容综述(二)代码分析1. 中间代码的表示2. 中间代码生成与优化3. 目标代码生成 三、结果分析1. 测试内容一2. 测试内容二 四、源代码放送s…

minus

minus指令是运用在两个SQL语句上,它先找出第一个SQL语句所产生的结果,然后看这些有没有在第二个SQL语句的结果中。如果有的话,那这笔资料就被去除,而不会在最后的结果中出现。如果第二个SQL语句所产生的结果并没有存在于第一个SQL…

MySql中的minus用法

MySql中的minus用法 在DB2和Oracle中,我们经常会用到minus这个函数,但是MySql中是没有minus的,那么要怎么办呢? 下面以一个小栗子来说下: 用例基础 表信息 mysql> show tables; ---------------- | Tables_in_tes…