群間平方和と群内平方和の分解

以下は,分散分析を数理的・数学的に考えるにあたって,まず,知っておきたい,平方和の分解の一部始終です。


a 個の群があり,各群 n 人の被験者に協力してもらった試験を考えます。第 j 群の i 番目の被験者の測定値をy_{ij}とします。各群の母平均を\mu_j=\mu+\alpha_jとします。全体的な母平均 μ に αj だけ何かが加われば,第 j 群の母平均 μj が表せる,ということです。なお,μ は全体平均と呼ばれることもあります。
(なぜ,平均ではなく,母平均なのか?という疑問は,母集団 - Wikipediaなどを参照してください)


実際,各群の測定値は,その母平均と一致しない場合もあります。この母平均からのズレを誤差として,ε で表します。そうすると,測定値は,y_{ij}=\mu+\alpha_j+\epsilon_{ij}となります。


さて,準備は終わりです。分散分析とは,全体の「分散」を要因がもたらす「分散」とそれ以外の「分散」とに分けて,それらを比較することで,要因の効果があるかどうかを検定する手法です。まさに「分散」を分析しているので,「分散分析」なのです。まず,全体の分散として,偏差平方和\sum_{i=1}^n\sum_{j=1}^a (y_{ij}-\bar{y}_{\cdot\cdot})^2を考えます。ここで\bar{y}_{\cdot\cdot}=\sum_{i=1}^n\sum_{j=1}^a y_{ij}/(n\times a)です。簡単に言えば,すべて(すべての群のすべての被験者)の測定値の平均値です。この偏差平方和を以下のように分解していきます。
\sum_{i=1}^n\sum_{j=1}^a (y_{ij}-\bar{y}_{\cdot\cdot})^2
=\sum_{i=1}^n\sum_{j=1}^a \{(y_{ij}-\bar{y}_{\cdot j}) + (\bar{y}_{\cdot j} -\bar{y}_{\cdot\cdot})\}^2 (今後のため,群ごとの平均値\bar{y}_{\cdot j} = \sum_{i=1}^n y_{ij}/ nを間に入れてました。)
=\sum_{i=1}^n\sum_{j=1}^a (y_{ij}-\bar{y}_{\cdot j})^2 +\sum_{i=1}^n\sum_{j=1}^a (y_{ij}-\bar{y}_{\cdot j})(\bar{y}_{\cdot j}-\bar{y}_{\cdot\cdot})+\sum_{i=1}^n\sum_{j=1}^a (\bar{y}_{\cdot j}-\bar{y}_{\cdot\cdot})^2
ここで,第2項(真ん中の項)は以下のようにすることで0となります。
\sum_{i=1}^n\sum_{j=1}^a (y_{ij}-\bar{y}_{\cdot j})(\bar{y}_{\cdot j}-\bar{y}_{\cdot\cdot})
=\sum_{j=1}^a \left[(\bar{y}_{\cdot j}-\bar{y}_{\cdot\cdot}) \{ \sum_{i=1}^n (y_{ij}-\bar{y}_{\cdot j})\}\right]=\sum_{j=1}^a \{(\bar{y}_{\cdot j}-\bar{y}_{\cdot\cdot}) ( \sum_{i=1}^n y_{ij} -n\times \bar{y}_{\cdot j})\}
=\sum_{j=1}^a \{(\bar{y}_{\cdot j}-\bar{y}_{\cdot\cdot}) \times 0\}=0
コツは「群ごとの平均値の式(上記参照)」をうまく利用することです。


これより,偏差平方和が群間平方和(第1項)と群内平方和(第2項)に分解されます。言葉に合わせて,平方和の順番は上記の途中の式と入れ替えています。
\sum_{i=1}^n\sum_{j=1}^a (y_{ij}-\bar{y}_{\cdot\cdot})^2=\sum_{i=1}^n\sum_{j=1}^a (\bar{y}_{\cdot j}-\bar{y}_{\cdot\cdot})^2+\sum_{i=1}^n\sum_{j=1}^a (y_{ij}-\bar{y}_{\cdot j})^2


分割したこの平方和をそれぞれ自由度で割って(割ったものを平均平方という),比にして比較するのが分散分析です。なぜ,自由度で割るのか,平方和や比はどのような分布になるのか,については,また次の機会に。