首页 > 代码库 > 虚拟变量

虚拟变量

这里要理解虚拟变量的真正含义:是要体现出不同省份之间的差异,而并不是所谓的控制变量。而其要充分理解多元线性回归当中参数估计量的真正含义:是偏回归系数,即自变量的边际量,表明了在其他条件不变的情况下,自变量每增加一个单位因变量的变化。如果按照你的理解假设X为地区变量,X的取值为1代表山西;2代表陕西;3代表江苏;4代表江西,那么回归完了以后如何来解释X前面的参数:X前面的参数表示X每增加一个单位因变量增加多少,而此时按照X的取值,陕西和山西之间相差一个单位,陕西和江苏之间也是差一个单位、江苏和江西之间也差一个单位,那么这个系数究竟是说明陕西和山西之间的差别呢?还是陕西和江苏还是江苏和江西之间的差别呢?这显然无法解释。还有X前面的回归参数是一个常数,那么就是说陕西和山西、陕西和江苏、江苏和江西之间因变量的差异是相同的,这显然是不合理的。在这按照你的逻辑目的是要把四个省份用数值区分开来,那为什么要用1,2,3,4呢?我用10,20,30,40也可以,那样的话参数估计量就更没法解释了。所以,虚拟变量的定义一定是按照1和0来定义,即是就等于1,不是就等于0,比如,假设模型中有常数项,那么可以定义3个虚拟变量,D1为陕西(是陕西D1=1,不是陕西D1=0);D2为江苏(是江苏D2=1,不是江苏D2=0);D3为江西(是江西D3=1,不是江西D3=0),那么山西呢?如果D1,D2,D3都同时为0,肯定就是山西了,这样回归之后D1前面的参数表明了陕西与山之间的差别;D2前面的参数表明了江苏与山西之间的差异;D3前面的参数表明了江西与山西之间的差异,参数的经济意义非常明确。从深层次上讲虚拟变量模型实际上是解决了方差分析只能说明不同省份之间有无差异,而不能说明不同省份之间的这种差异究竟有多大的问题。

虚拟变量