2013年12月27日金曜日

統計学における自由度の話

先月、統計に関する整理をしていた際に、自由度について腹落ちした部分があったので、年末で時間もあるし、まとめておく。

統計を学んだ人にとっては自由度(degree of freedom)は一度は耳にしたことがあるだろう。ただ、自由度を扱う際、なぜマイナス1や2をするのか今ひとつ理解せぬまま慣習のごとく行っている人も少なくないのではないだろうか。
少なくとも少し前まで私はそうでした。

自由度って何?

以下、引用
統計の分野では、独立に採取された観測データ数がn個あるばあい、このデータ群は n 自由度であると表現します。
「独立に」という意味は、どの観測値も他の観測値から正確に値を決められない状態という意味です。

たとえば、観測データの中にズルをしてデータを取らず、他のいくつかのデータから計算式で算出したものがあったばあい、その観測データは他のデータから正確に値が決められます。この算出式の存在によって、自由度がひとつ減少してしまいました。ですから1自由度が減って、このデータ群の自由度は(n-1)であるということになります。

引用((おまけ) イラストでわかる自由度と不偏分散

うーん。なんとなく、うーんって感じじゃないっすかね。

で、下記の書籍を私はバイブルとしているのですが、すごくわかりやすい記述が。


自由度という概念は変数が自在に動き回れる空間の次元と関係しています。
たとえば、変数x1とx2のペア(x1,x2)を考えます。それぞれ、ー∞から∞まで可動域。

ここにおいて、自由に決めることができるのであれば、下記の図の通り、自由度は2。
ここで、x1とx2に1つの制約を置いたと仮定します。
x1=x2としましょう。
すると、先ほどは自由度が2であったのですが、上記制約によって、1変数が決定されるともう1変数が決定してしまい、自由度は1となってしまいます。
さらにもう1つ制約を課す事になれば、もはや変数の自由は0となり、必然的に点が決定されてしまう事になります。
このように考えると、なぜ自由度nからマイナスする数が決まるのかが非常に明快にわかりやすいでしょう。

特にこの図示での考え方は非常に幾何的な考え方でもあったので、スッと腹落ちしました。
非常に基本的なところですが、意外と理解が疎かになっていたりするので、改めて基本は大事だなと思った次第です。

0 件のコメント:

ページビューの合計