群間平方和と群内平方和の分解

以下は，分散分析を数理的・数学的に考えるにあたって，まず，知っておきたい，平方和の分解の一部始終です。

a 個の群があり，各群 n 人の被験者に協力してもらった試験を考えます。第 j 群の i 番目の被験者の測定値を $y_{ij}$ とします。各群の母平均を $\mu_j=\mu+\alpha_j$ とします。全体的な母平均 μ に αj だけ何かが加われば，第 j 群の母平均 μj が表せる，ということです。なお，μ は全体平均と呼ばれることもあります。
（なぜ，平均ではなく，母平均なのか？という疑問は，母集団 - Wikipediaなどを参照してください）

実際，各群の測定値は，その母平均と一致しない場合もあります。この母平均からのズレを誤差として，ε で表します。そうすると，測定値は， $y_{ij}=\mu+\alpha_j+\epsilon_{ij}$ となります。

さて，準備は終わりです。分散分析とは，全体の「分散」を要因がもたらす「分散」とそれ以外の「分散」とに分けて，それらを比較することで，要因の効果があるかどうかを検定する手法です。まさに「分散」を分析しているので，「分散分析」なのです。まず，全体の分散として，偏差平方和 $\sum_{i=1}^n\sum_{j=1}^a (y_{ij}-\bar{y}_{\cdot\cdot})^2$ を考えます。ここで $\bar{y}_{\cdot\cdot}=\sum_{i=1}^n\sum_{j=1}^a y_{ij}/(n\times a)$ です。簡単に言えば，すべて（すべての群のすべての被験者）の測定値の平均値です。この偏差平方和を以下のように分解していきます。
$\sum_{i=1}^n\sum_{j=1}^a (y_{ij}-\bar{y}_{\cdot\cdot})^2$
$=\sum_{i=1}^n\sum_{j=1}^a \{(y_{ij}-\bar{y}_{\cdot j}) + (\bar{y}_{\cdot j} -\bar{y}_{\cdot\cdot})\}^2$ （今後のため，群ごとの平均値 $\bar{y}_{\cdot j} = \sum_{i=1}^n y_{ij}/ n$ を間に入れてました。）
$=\sum_{i=1}^n\sum_{j=1}^a (y_{ij}-\bar{y}_{\cdot j})^2 +\sum_{i=1}^n\sum_{j=1}^a (y_{ij}-\bar{y}_{\cdot j})(\bar{y}_{\cdot j}-\bar{y}_{\cdot\cdot})+\sum_{i=1}^n\sum_{j=1}^a (\bar{y}_{\cdot j}-\bar{y}_{\cdot\cdot})^2$
ここで，第2項（真ん中の項）は以下のようにすることで0となります。
$\sum_{i=1}^n\sum_{j=1}^a (y_{ij}-\bar{y}_{\cdot j})(\bar{y}_{\cdot j}-\bar{y}_{\cdot\cdot})$
$=\sum_{j=1}^a \left[(\bar{y}_{\cdot j}-\bar{y}_{\cdot\cdot}) \{ \sum_{i=1}^n (y_{ij}-\bar{y}_{\cdot j})\}\right]=\sum_{j=1}^a \{(\bar{y}_{\cdot j}-\bar{y}_{\cdot\cdot}) ( \sum_{i=1}^n y_{ij} -n\times \bar{y}_{\cdot j})\}$
$=\sum_{j=1}^a \{(\bar{y}_{\cdot j}-\bar{y}_{\cdot\cdot}) \times 0\}=0$
コツは「群ごとの平均値の式（上記参照）」をうまく利用することです。

これより，偏差平方和が群間平方和（第1項）と群内平方和（第2項）に分解されます。言葉に合わせて，平方和の順番は上記の途中の式と入れ替えています。
$\sum_{i=1}^n\sum_{j=1}^a (y_{ij}-\bar{y}_{\cdot\cdot})^2=\sum_{i=1}^n\sum_{j=1}^a (\bar{y}_{\cdot j}-\bar{y}_{\cdot\cdot})^2+\sum_{i=1}^n\sum_{j=1}^a (y_{ij}-\bar{y}_{\cdot j})^2$

分割したこの平方和をそれぞれ自由度で割って（割ったものを平均平方という），比にして比較するのが分散分析です。なぜ，自由度で割るのか，平方和や比はどのような分布になるのか，については，また次の機会に。