虚拟变量是什么
实际场景中,有很多现象不能单纯的进行定量描述,只能用例如“出现”“不出现”这样的形式进行描述,这种情况下就需要引入虚拟变量。例如即将到来的女生节,每年的这个时候毛绒玩具的销量都会上升,说明女生节对毛绒玩具的销量产生了一定影响,但是这个影响程度又很难界定,这时只能定义一个虚拟变量去描述事情“发生”与“不发生”了。
虚拟变量指的是:用成对数据如0和1 分别表示具备某种属性和不具备该种属性的变量,也叫作二进制变量、二分变量、分类变量以及哑变量。模型中引入了虚拟变量,虽然模型看似变的略显复杂,但实际上模型变的更具有可描述性。
例如如下的虚拟变量:
- 1表示男生,则0表示女生;
- 1表示蒙古族,则0表示非蒙古族;
- 1表示清明节前,则0表示清明节后。
虚拟变量该怎样设置
构建模型时,可以利用虚拟变量进行变量区间划分。例如:
- 构建居民存款影响因素模型时,可将年龄作为自变量引入模型,将年龄变量划分为“35岁前”与“35岁后”两个区间;
- 构建消费影响因素模型时,可将历史时期作为自变量引入模型,将历史时期变量划分为“改革开放以前”与“改革开放以后”两个区间;
- 构建公司员工绩效模型时,可将打卡时间作为自变量引入模型,将打卡时间变量划分为“准时”与“不准时”两个区间。
一般,对于只有两种特征的因素,用一个虚拟变量即可将两种特征完全表达出来。例如:天气因素有晴天、多云与下雨三种特征,可以设置两个虚拟变量来描绘这三种特征,即:
- 特征A=1表示晴天、特征A=0表示其他;
- 特征B=1表示多云、特征B=0表示其他。
这样就可以用两个特征描述出天气变量全部的特征。也就是:
-
特征A=1特征B=0表示晴天;
-
特征A=0特征B=1表示多云;
-
特征A=0特征B=0表示下雨。
需要注意的是,m种特征的因素,一般情况下只需引入m-1个虚拟变量,否则会出现局部多重共线性。

建模数据不符合假定怎么办
构建回归模型时,如果数据不符合假定,一般我首先考虑的是数据变换,如果无法找到合适的变换方式,则需要构建分段模型,即用虚拟变量表示模型中解释变量的不同区间,但分段点的划分还是要依赖经验的累积。
回归模型的解读
回归模型可以简单这样理解:
-
如果模型为
log(wage)=x0+x1*edu+u的形式,则可以简单理解为:X每变化一个单位,则Y变化的百分点数;
-
如果模型为
log(wage)=x0+x1*log(edu)+u的形式,则可以简单理解为:X每变化一个百分点,则Y变化的百分点数。
我很少单独使回归模型
回归模型我很少单独使用,一般会配合逻辑回归使用,即常说的两步法建模。例如购物场景中,买与不买可以构建逻辑回归模型,至于买多少则需要构建普通回归模型了。
我的公众号:Data Analyst
个人网站:https://www.datanalyst.net/















