看到一篇文章里详细讲了如何通过哑变量来用回归模型理解方差分析。
方差分析与回归分析是统计学中重要的方法, 在方差分析中, 自变量是分类变量; 在回归分析中, 自变量可以是连续变量、等级变量、分类变量。事实上, 方差分析可以被看成是回归分析的一个特例, 这一点可以通过定义合适的哑变量来理解。
例如单因素方差分析中, 比较k 组总体均数, 可以拟合下面的回归模型(设置k - 1 个哑变量) :
Y = μ+ а1X 1+ а2X 2+ ⋯+ аk - 1X k- 1+ E
如赋值哑变量, 则有:
μ1= μ+ а1 (group1: X 1= 1 X 2= 0⋯X k- 1= 0)
μ2= μ+ а2 (group2: X 1= 0 X 2= 1⋯X k- 1= 0)
μk- 1= μ+ аk- 1 (groupk- 1: X 1= 0 X 2= 0⋯X k- 1= 1)
μk= μ (groupk: X 1= 0 X 2= 0⋯X k- 1= 0)
则:
а1= μ1- μk
а2= μ2-μk
аk- 1= μk- 1- μk
μ= μk
对于k 个总体均数的方差分析H 0: μ1= μ2= ⋯μk- 1= 0, 等同于对模型(5) 做假设检验H 0: а1= а2= ⋯аk- 1= 0 , 不同之处在于哑变量的赋值方法不同, 回归系数а1, а2, ⋯аk- 1的含义不同。同样, 随机区组设计的方差分析, 两因素的方差分析也可以通过设置哑变量的方式纳入到回归分析的框架中来。通过设置哑变量我们可以从回归的角度来理解方差分析。
《哑变量在统计分析中的应用李丽霞》 郜艳晖 张 瑛
没有评论:
发表评论