多元回归分析中,要求所有变量须为等距尺度 (或译区间尺度,interval level of measurement),或者是“0/1”(自变量).
如果变量的值仅属名目尺度(nominal),亦即“1,2,3,4分别代表不同选项意义”这样的变量,是不可以放进去做回归分析的.严格上说,就连“低,中,高”这样的顺序尺度(ordinal)变量也不能回归分析.
以你目前的情况,因变量是连续型的(亦即等距(区间)尺度),而自变量是“1,2,3,4分别代表不同选项意义”这样的名目尺度变量,则可以把自变量化为虚拟变项(Dummy variables),亦即“0/1”化,以便进行回归分析.
以你的例子,“1,2,3,4分别代表不同选项意义”这样的自变量,设3个虚拟变项就够.
当选答1,VAR_D1的值定为1,选答其余的(2,3,4),VAR_D1的值定为0;
当选答2,VAR_D2的值定为1,选答其余的(1,3,4),VAR_D2的值定为0;
当选答3,VAR_D3的值定为1,选答其余的(1,2,4),VAR_D3的值定为0.
亦即:
若选答1,VAR_D1=1,VAR_D2=0,VAR_D3=0;
若选答2,VAR_D1=0,VAR_D2=1,VAR_D3=0;
若选答3,VAR_D1=0,VAR_D2=0,VAR_D3=1;
若选答4,VAR_D1=0,VAR_D2=0,VAR_D3=0.
(不要搞出个VAR_D4放进回归方程,不然的话会出现共线性问题)
此外,若因变量未达等距尺度的要求(亦即不是连续型的),
只属“低,中,高”这样的顺序尺度变量,你有两种处理方法:
(1)假设它是等距的,照样做回归分析;
(2)用对数线性模型的Logit Loglinear Analysis处理 (较严紧的做法)
至於你在书上看到的logistics回归方法,不适合你用啦.它是针对因变量为“0/1”二分的.当然,你也可以把你的资料降级,区分为两组,放进去做logistics回归,但这会丧失了许多资讯,太浪费了.