2008年12月23日星期二

从回归模型的角度来理解方差分析

看到一篇文章里详细讲了如何通过哑变量来用回归模型理解方差分析。

方差分析与回归分析是统计学中重要的方法, 在方差分析中, 自变量是分类变量; 在回归分析中, 自变量可以是连续变量、等级变量、分类变量。事实上, 方差分析可以被看成是回归分析的一个特例, 这一点可以通过定义合适的哑变量来理解。
例如单因素方差分析中, 比较k 组总体均数, 可以拟合下面的回归模型(设置k - 1 个哑变量) :
Y = μ+ а1X 1+ а2X 2+ ⋯+ аk - 1X k- 1+ E

如赋值哑变量, 则有:
μ1= μ+ а1   (group1: X 1= 1 X 2= 0⋯X k- 1= 0)
μ2= μ+ а2   (group2: X 1= 0 X 2= 1⋯X k- 1= 0)   
        
μk- 1= μ+ аk- 1  (groupk- 1: X 1= 0 X 2= 0⋯X k- 1= 1)
μk= μ   (groupk: X 1= 0 X 2= 0⋯X k- 1= 0)
则:
а1= μ1- μk
а2= μ2-μk

аk- 1= μk- 1- μk
μ= μk
对于k 个总体均数的方差分析H 0: μ1= μ2= ⋯μk- 1= 0, 等同于对模型(5) 做假设检验H 0: а1= а2= ⋯аk- 1= 0 , 不同之处在于哑变量的赋值方法不同, 回归系数а1, а2, ⋯аk- 1的含义不同。同样, 随机区组设计的方差分析, 两因素的方差分析也可以通过设置哑变量的方式纳入到回归分析的框架中来。通过设置哑变量我们可以从回归的角度来理解方差分析。

《哑变量在统计分析中的应用李丽霞》  郜艳晖  张 瑛

2008年12月5日星期五

主成分分析与因素分析的区别

昨天听老师讲到主成分分析,没有弄明白主成分分析与因素分析有什么区别。因为整个过程都是很相似的,把多个变量析出少量的几个factor。于是回去看了《Using multivariate Statistics》,发现上面讲到了几点区别:
1、数学上的区别:主成分分析要分析所有观察变量的方差;而因素分析只分析共享方差,试图估计和去除误差导致的方差和每个变量独有的方差。
2、理论上的区别:二者的区别主要在于变量与因子或成分联系起来的原因。因素分析认为分子是变量的原因, 内在的构念(即因子)产生了变量上的得分。所以探索性因素分析的问题是:导致变量之间存在关系的潜在过程是什么?而验证性因素分析的问题是:变量值间的关系与假设的因子结构是否一致。而主成分分析则认为,成分只是相关的变量的简单集合,即是变量产生了成分。并不存在关于什么变量应该与什么因子相联系的潜在的理论,所以用来表示成分的任何标签只是与成分相关的一些变量的结合的方便描述,并不反映什么潜在的过程。