2011年5月25日水曜日

[Excel]簡単カイ二乗検定

こんにちは。部隊長です。
最近統計処理を行う事が多いものですから、復習も兼ねてやり方を書いてみます。

【カイ二乗検定とは?】
クロス集計の結果が、統計的によくある事なのか否かを検定します。
これによって、カテゴリー毎の独立性が立証されるわけです。

【どういう時に使うの?】
例えば前日に酒を飲んだ人たちと、飲まなかった人たちで翌日の起きた時間帯に差があるのかどうかー
なんて事が統計的にわかります。


では、やり方。


1.クロス集計表を準備
検定を行いたいクロス集計表を準備します。




2.期待値を計算
このクロス集計表の期待値を計算します。
期待値とは・・・この例で言うと飲んだ人と飲んでない人を寝坊した人と寝坊してない人の割合で分けた値です。



飲んでなくて寝坊した人の期待値は、「寝坊した人の数×飲んでない人の数÷全体」となります。
これを4つのセルにそれぞれ貼り付けて、値を出します。


3.カイ二乗値を計算
カイ二乗値とは、実測値と期待値のズレを表します。
このズレが統計上の信頼確率範囲内ででるものか、そうでないかを検定するのが今回のゴールです。


各セルごとに「(実測値-期待値)の二乗÷期待値」で算出し、総和がこのクロス集計表のカイ二乗値となります。


4.確率を検定する
求めたカイ二乗値はカイ自乗分布に従います・・・ってなんのこっちゃですね。
詳しくはこちらを見ていただくとして、求めた値がどれくらいの確率で出現するものなのかを算出する関数が「CHIDIST(x,自由度)」です。


今回のクロス集計表は2×2マスですから、自由度は「(行の数-1)×(列の数-1)」で1となります。
算出された確率は・・・0.038 → 3.8%の確率となるわけです。
統計上、信頼確率範囲は用途により95%だったり99%だったりしますが、95%とするのであれば、このクロス集計表の結果から、酒飲んだ人と飲んでない人が寝坊するかどうかは関係が無い事が棄却された事になり、要するに飲んだら寝坊するみたいよ。有意に。って事になるのです。
・・・まどろっこしい。












5.もっと楽に確率を算出する =CHITEST(実測,期待値)


えっ?


カイ二乗値も自由度もいらない・・・



結論:理屈は大事。

0 件のコメント:

コメントを投稿

とある規格化されたコード

世の中こんなもんまで規格化されていますよ、というお話 https://ja.wikipedia.org/wiki/ISO_5218 この辺が大変良くできた、ためになる(?)解説記事です。(長い https://qiita.com/aoshirobo/items/32deb...