R语言使用虚拟变量(Dummy Variables) 回归分析工资影响因素

article/2025/11/3 7:00:46

最近我们被客户要求撰写关于虚拟变量(Dummy Variables) 回归的研究报告,包括一些图形和统计输出。

简介

本文与以下两个问题有关。你应该如何添加虚拟变量?你应该如何解释结果?

如果使用一个例子,我们可能会更容易理解这些问题。

数据

假设我们想研究工资是如何由教育、经验和某人是否担任管理职务决定的。假设

  1. 每个人都从年薪4万开始。

  2. 实践出真知。每增加一年的经验,工资就增加5千。

  3. 你学得越多,你的收入就越多。高中、大学和博士的年薪增长分别为0、10k和20k。

  4. 海面平静时,任何人都可以掌舵。对于担任管理职位的人,要多付20k。

  5. 天生就是伟大的领导者。对于那些只上过高中却担任管理职位的人,多给他们3万。

  6. 随机因素会影响工资,平均值为0,标准差为5千。

下面是部分数据和摘要。

绘制数据

有和没有管理职位的人的工资和教育之间的关系。

 jitter(alpha=0.25,color=colpla[4])+facet_wrap(~管理职位)+
boxplot(color=colpla[2])

有管理职位和没有管理职位的人的工资和经验之间的关系,以教育为基础。

 stat_smooth(method = "lm")+facet_wrap(~管理职位)

回归分析

忽略教育和管理之间的相互作用

我们只将工资与教育、经验和管理职位进行回归。其结果是 

虽然这些参数在统计学上是有意义的,但这并没有任何意义。与高中相比,大学学历怎么可能使你的工资减少5105?

正确的模型应该包括教育和管理职位的交互项。

添加教育和管理之间的交互作用

现在,让我们添加教育和管理之间的交互项,看看会发生什么。

对结果的解释

现在的结果是有意义的。

  • 截距为40137(接近4万)是基本保障收入。

  • 教育的基数是高中。与高中相比,大学教育可以平均增加9833元(接近1万)的工资。与高中相比,博士教育可以增加19895元(接近2万)的工资。

  • 多一年的工作经验可以使工资增加4983元(接近5千)。

  • 担任管理职位的高中毕业生有49695元的溢价(接近5万)。这些人是天生的领导者。

  • 与担任管理职位的高中毕业生相比,担任管理职位的大学毕业生的溢价减少了29965.51至29571(49735.74-29965.51,接近2万)。

  • 与高中毕业生担任管理职位相比,博士毕业生担任管理职位的溢价减少了29501至19952.87(接近2万)。另外,你可以说管理职位产生了20K的基本溢价,而不考虑教育水平。除了这2万外,高中毕业生还能得到3万,使总溢价增加到5万。

检验是否违反了模型的假设

为了使我们的模型有效,我们需要满足一些假设。

  • 误差应该遵循正态分布

正态Q-Q图看起来是线性的。所以这个假设得到了满足。

  • 没有自相关

D-W检验值为1.8878,接近2,因此,这个假设也满足。

  • 没有多重共线性

预测变量edu、exp和mngt的VIF值均小于5,因此满足这一假设。

用数据的子集进行回归

你可以通过用一个数据子集运行模型来获得同样的结果。你可以将数据按教育程度分成子集,并在每个子集上运行回归模型,而不是使用一个教育的虚拟变量。

如果只用高中生的数据,你会得到这样的结果。

sub<-d %>% 
+   filter(教育=="高中")

仅凭大学生的数据,你就能得到这个结果。

只用来自博士生的数据,你会得到这个结果。



http://chatgpt.dhexx.cn/article/IwSpKL6R.shtml

相关文章

虚拟变量在模型中的作用

虚拟变量是什么 实际场景中&#xff0c;有很多现象不能单纯的进行定量描述&#xff0c;只能用例如“出现”“不出现”这样的形式进行描述&#xff0c;这种情况下就需要引入虚拟变量。例如即将到来的女生节&#xff0c;每年的这个时候毛绒玩具的销量都会上升&#xff0c;说明女生…

R 回归 虚拟变量na_互助问答第30期:工具变量、GARCH模型操作和多项选择效信度...

问题1:用截面数据研究var1对y1 与y2 的影响,由于y1是0-1型的变量、y2为连续变量,因此分别用probit与tobit模型做了回归,首先做了基础回归,之后做了工具变量回归,但工具变量回归的结果(系数的绝对值)却远远大于原回归系数的绝对值,|-2.006|>|-0.046|,为何工具变量回归…

多元线性回归及虚拟变量(哑变量)设置

1.多元线性回归SPSS分析 四步搞定SPSS多元线性回归视频教程&#xff08;含详细操作及结果解读&#xff09;_哔哩哔哩_bilibili订阅陈老师B站送福利&#xff01;订阅后加陈老师QQ1622275006送数据分析教程及软件福利哟~关注微信公众号&#xff1a;杏花开医学统计&#xff0c;免…

虚拟变量陷阱原理及算例

文章目录 1.虚拟变量2.虚拟变量陷阱3.虚拟变量陷阱例子及分析4.总结5.参考资料 1.虚拟变量 直接在回归模型中加入定性因素&#xff08;比如类别因素&#xff1a;男或女&#xff09;存在困难&#xff0c;因此可以考虑把定性因素量化&#xff0c;使定性因素与定量因素在回归模型…

机器学习(时间序列):线性回归之虚拟变量 dummy variables

1 前言 当预测变量是分类变量时&#xff0c;我们可以引入虚拟变量&#xff0c;作为回归的虚拟变量虚拟变量也可用于解释数据中的异常值。 虚拟变量不会忽略异常值&#xff0c;而是消除其影响。 在这种情况下&#xff0c;虚拟变量对该观察值取值为 1&#xff0c;而在其他任何正…

虚拟变量的方法介绍及python实现方式

虚拟变量的定义作用 计量经济学中对虚拟变量给出了定义、作用及使用场景&#xff0c;进一步的深入了解可以系统性学习。 定义&#xff1a;虚拟变量 ( Dummy Variables) &#xff0c;用以反映无法定量度量的因素&#xff0c;譬如性别对收入的影响&#xff0c;是量化了的质变量&…

【计量经济学】虚拟变量

虚拟变量–潘登同学的计量经济学笔记 文章目录 虚拟变量--潘登同学的计量经济学笔记 对定性信息的描述只有一个虚拟变量的情形虚拟变量系数的解释虚拟变量的作用效果检验工资性别歧视因变量为对数形式的情况 多个虚拟变量的情形虚拟变量系数的解释使用虚拟变量包含序数信息虚拟…

php读取文件名称,php如何获取文件名

php获取文件名的方法&#xff1a;可以用basename()函数来获取文件名&#xff0c;例如&#xff1a;【basename($full_name)】。还可以使用pathinfo()函数来获取文件名。 PHP中获取文件名的方式 1、直接用basename&#xff1a;<?php $full_name c:\wamp\php\php.ini; $base…

python获取当前系统的日期_python怎么获取当前系统时间

python获取当前系统时间&#xff0c;包括年月日&#xff0c;时分秒&#xff0c;主要通过Python中的datetime模块来实现。 下面我们就通过具体的代码示例&#xff0c;给大家详细介绍Python获取当前时间日期的实现方法。 代码示例如下&#xff1a;import datetime now datetime.…

mysql如何获取当前时间_mysql怎么获取当前时间

mysql获取当前时间的方法&#xff1a;可以通过执行【select now();】语句来获取当前时间。还可以通过执行【select current_timestamp, current_timestamp();】语句来获取。 获得当前日期时间(date time)函数&#xff1a;now()mysql> select now(); --------------------- …

如何通过php获取今天的时间,如何使用php获取当前时间和日期

如何使用php获取当前时间和日期&#xff1f;在php中我们可以使用date()函数来获取当前时间和日期&#xff0c;也可以在PHP> 5.2的 版本中使用DateTime PHP类来获取日期和时间&#xff0c;下面我们就来看看具体的内容。 使用date()函数输出当前日期和时间。它将使用php.ini中…

php如何获取当前日期时间函数,php如何使用date()函数获取当前时间

php如何使用date()函数获取当前时间?本篇文章就给大家介绍具体介绍PHP使用date()函数获取当前时间的方法,希望对你们有所帮助。 date()函数可以将获取到的时间戳转换为更易读的日期和时间格式。当date()函数中不自定义一个时间戳时,将使用当前日期和时间。 下面我们来看看使…

PHP 获取当前访问的URL

<?php /** * 获取当前访问的完整url * return string * date 2020/7/23 */ function getUrl() {// 判断当前页采用的协议是HTTP还是HTTPS // 443端口&#xff1a;即网页浏览端口&#xff0c;主要用于HTTPS服务&#xff0c;是提供加密和通过安全端口传输的另一种HTTP。 $url…

python之点积

数学中点积也就是内积&#xff0c;是指两个向量各自对应位相乘后求和&#xff0c;比如x (x1,x2),y(y1,y2),则x与y的内积结果为x1*y1x2*y2,因此 python中一维数组之间的点积&#xff0c;即为数组各个位乘积之和&#xff0c;如&#xff1a; x1 np.arange(0,9) print(x1) y1 …

点积、叉积、内积、外积

点积、叉积、内积、外积 点积内积 &#xff08;结果标量&#xff09; 叉积外积 (结果矢量) 点积&#xff08;内积、数量积&#xff09;&#xff1a; matlab or python&#xff1a;dot() / np.dot() 数学符号&#xff1a;A.B<a,b> 相乘相加 物理意义&#xff1a; 向量…

点积和叉积在计算机图形学的应用

点积和叉积在计算机图形学中&#xff0c;是最为基础且重要的概念&#xff0c;初学者弄清它的概念的应用&#xff0c;是很重要的。最后一节&#xff0c;是为了加强理解记录&#xff0c;如果不看也是可以的&#xff0c;大家选择观看&#xff0c;有兴趣可以去看原视频&#xff0c;…

线性代数【18】点积和对偶性

前言&#xff1a; 本节&#xff0c;尝试通过线性变换来理解&#xff0c;或者说来表述点积。 在尝试理解的过程中&#xff0c;我们发现了线性变换&#xff0c;尤其是从多维空间到一维空间的线性变换&#xff0c;一定有某个严格的1x2的向量和他对应&#xff0c;这种微妙的而自然…

【Python】详解Numpy中的点积运算

1. 引言 根据数学家的说法&#xff0c;点积是一种运算&#xff0c;它取两个等长的向量作为输入&#xff0c;然后返回一个数字&#xff08;标量&#xff09;。向量A与向量B的点积用符号表示为A•B。在线性代数中&#xff0c;点积是输入向量中每个对应元素的乘积之和。 本文重点…

cuda点积运算

最近在研究并行运算的规约算法&#xff0c;在看《GPU高性能编程CUDA实战》这本书中点积运算时&#xff0c;有些问题想了很久&#xff0c;记录下来&#xff1b; 注点积公式&#xff1a;&#xff08;dot(A,B)a1*b1a2*b2...an*bn&#xff09; 书上例子算点积运算时分为了以下几步…

Unity3D C#数学系列之点积

文章目录 1 定义2 几何意义3 向量a向量b xaxbyaybzazb4 应用案例4.1 求两向量的夹角4.2 判断两向量是否垂直4.3 判断NPC是否在攻击范围内4.4 已知入射光线和表面法线求反射光线 5 项目 1 定义 可知&#xff0c;点积得到的是一个标量&#xff0c;这个标量代表什么呢&#xff1f…