| Top Page | 雑多ないろいろ |

The Insignificance of Statistical Significance Testing

統計学的な有意性検定の意味のなさ

Johnson, Douglas H. 1999. The Insignificance of Statistical Significance Testing. Journal of Wildlife Management 63(3):763-772. 全文

この論文の存在は, 久保拓弥さん(北大)の ページで知りました. The Wildlife Society Award for Outstanding Publication in Wildlife Ecology and Management を受賞したものです. 安易に使われがちな統計学的有意性検定がいかに無意味かを解説しています. なかなか勉強になりました. 自分用に下手な抄録を作ってみました.

※マーク付きの部分は竹中が書いた注です.

2003-06-26

イントロダクション

野生生物の分野では統計学的仮説検定がよく使われるようになってきてる. でも,統計学的仮説検定を使わない方向に向かっている分野もある. たとえばアメリカの心理学会では,学会誌に 仮説検定の結果を載せることを禁止しようという議論があったほど (これは検閲っぽいということで却下されたけど).

1998年の Wildlife Society の大会のときに,仮説検定についてのシンポジウムがあった. 演者はみんな,仮説検定は使われすぎてたり,間違って使われたり, そもそも不適切な道具だということで意見が一致していた.

この論文では,仮説検定の際のp 値の間違った解釈のしかたや, 統計学的仮説検定の欠点,かわりの方法などについて説明する.

統計学的仮説検定とはなんだ?

統計学的仮説検定は,

  1. ほんとに示したいこととは反対のことを帰無仮説として考える.
  2. データを集める.
  3. データと帰無仮説からp 値を計算する.
  4. p 値にもとづいて帰無仮説を評価する
というふうに進める.

※で,p の値がじゅうぶん小さかったら,帰無仮説が棄却された → ほんとに示したい ことが示された,と論を進めるわけですね.

ここに登場するp 値は,

などと解釈されるが,これはどれも間違い.正しくは, 「帰無仮説が正しく,かつ想定する統計モデルが正しく,データがランダムにとられて いる場合に,観測データ+'もっと極端な'データが得られる確率」を示す.

※上で言う統計モデルとは,たとえば2集団とも同じ分散の正規分布をしてる, というようなモデルのこと.このモデルに関する仮定をちゃんと意識しないで検定 してしまうことが多い.

「もっと極端なデータ」ってどんなデータだ?

「観測データないしはもっと極端なデータが得られる確率」を計算するには, 「もっと極端なデータ」とはどんなデータかという知識が必要. たとえば,昆虫13匹のうち10匹がオス,3匹がメスだとしたら, もっと極端なデータというのはどんなデータだろうか?

13匹のサンプルをとってオスメスを調べようとしたのなら,
「もっと極端なデータ」 はオス11匹とメス2匹,オス12匹とメス1匹,オス13匹でメスがゼロ.
オスが10匹つかまるまでサンプルをとり続けるというサンプリング方法なら,
「もっと極端なデータ」 はオス10匹とメス2匹,オス10匹とメス1匹,オス10匹でメスがゼロ.
メスが3匹つかまるまでサンプルをとり続けるというサンプリング方法なら,
「もっと極端なデータ」 はオス11匹とメス3匹,オス12匹とメス3匹……

などなど,いくらでも考えられる. p 値は「もっと極端なデータ」という,実際には観測されてないデータに基づいて 計算するわけだが,これがどんなものかはデータをとった人の気持ちが分からないと 決らないということ.

帰無仮説はほんとに正しいのか?

p 値は,帰無仮説が正しいと仮定して計算する. たいてい,帰無仮説は○○がゼロだとか,○○と××が等しいとかいうもの. こういう種類の帰無仮説は point null hypothesis と呼ぶ. point null hypothesis が厳密に正しいなんてことはほぼあり得ないってことは, データをとる前から分かってる.

※あるパラメータがぴったりゼロで,0.01でも -0.01 でもないなんてことは あり得ないということです.

というわけで,p 値は,厳密には間違っていることがほぼ確かな仮定のもとで 計算されるものだし,その値は「もっと極端な場合」の想定のしかた次第で 変わってしまう. そんなp 値に意味はあるのか? 少なくとも客観的な指標ではあるのか?

p 値は任意だ

p 値は,1) 帰無仮説とデータとの違いの大きさと,2) サンプル数とに依存する. サンプル数を増やせばいくらでもp 値を小さくできる.

もっと恣意的なのは,p 値がいくつだったら「有意に違う」と 結論するのかという基準. p 値が0.051 なら意味がないが,0.049 だったら意味があるなんて変.

帰無仮説を証明する

帰無仮説が棄却できないのはどんなときか. たとえば,あるパラメータがゼロではないけど その値が小さいためにはっきりゼロじゃないと結論できない場合や, やはりゼロではないけど,データ数が少ないためにゼロじゃないと結論できない場合もある. 検出力不足で帰無仮説が棄却できなかっただけかもしれないのに,帰無仮説が証明されたかのように 論を進めている例も少なくない.

※以下,この論文が掲載された The Journal of Wildlife Management 掲載論文から, こういう誤った解釈の例をいくつも引用.

Power analysis

Power analysis は,帰無仮説からのずれを検出する検出力を求める方法で, たとえばあるパラメータがゼロより1.0 だけ大きいことを,有意水準 5%, 第二種の過誤(帰無仮説がほんとは間違ってるのに,あやまって受け入れてしまう確率) 10%で検出するにはどれだけのサンプル数が必要かをあらかじめ見積もって 実験計画をたてるのに使える.

また,検定の結果,帰無仮説が棄却されなかったときに, 「差がない」という結論が検出力不足のせいじゃないことを示すために 使われることも多い. The Journal of Wildlife Management ではそれを積極的に推奨してる.

でも,データにもとづいて計算したp 値が大きいのなら, そのデータが示してる「帰無仮説からのズレ」を検出する力は低いに決ってるので, これはあんまり意味がない.

※検出力については,たとえば 青木繁伸さん(群馬大)による 標本サイズの決め方 などを参照. また,この論文で引用してる The Wildlife Society. 1995. Journal News. Journal of Wildlife Management 59:196-198. は分かりやすい.

生物学的な有意性と統計学的な有意性

研究者から見て生物学的に意味があるはずの違いが統計学的に有意だとなったら嬉しい. どうでもよい違いが統計学的に有意でなかったらこれもOK. でも,生物学的に意味があるはずの違いが統計学的に有意でなかったら悲しんで,もっと データ数増やさなきゃと思う. また,どうでもよい違いが有意になっちゃったらうっとうしいなあと思う. データの取りすぎってこと.

出て欲しい違いが有意だとなるまでデータ数を増やし, 出てほしくない違いが有意にならなかったらそのままでよしとする態度は, 研究の価値を下げますね.

仮説検定についてのコメントいろいろ

ずいぶん前から,統計学者たちは統計学的仮説検定をいろいろ批判してきた. その多くは,検定そのものへの批判といようよりも,その誤った使われ方についての批判だ. でも,間違って使われやすいということ自体,統計学的仮説検定の問題だと思うぞ.

なぜ統計学的仮説検定が使われるのか

たとえばこんな理由.

野生生物の分野に限らず,心理学とか社会学といった soft な科学で統計学的仮説検定を やりたがる背景には,物理学のような hard な科学をうらやむ気持ちがあるんではないか.

物理学は,世界がどうなってるかについて理論をたてて,それに基づく予測を導く. その予測を科学的な仮説として真偽を検定する. 予測が裏切られたら,理論が間違ってたことが分かる. いっぽう,野生生物の生態の分野で検定する仮説は,世界がどうなってるかについての理論から 導かれる仮説ではない. たいていは,集団の性質についての統計学的な仮説だ.

科学的仮説はグローバルで一般的なもの,統計学的仮説はローカルで 特定のシステムについてのもの. 統計学的仮説検定の結果は,科学的仮説の真偽を判断するための材料のひとつ.

なんで野生生物の生態学者はめったに科学的仮説をテストしようとしないのか? それは,たぶん,物理学の対象よりもあまりに複雑なシステムで,すべてのものが すべてのものと関係しているシステムを相手にしているからだろう. この世界では,AとBが無関係だというような帰無仮説は,厳密にはすべて誤りだ.

繰り返し

繰り返しは科学の基本.繰り返し再現されないことは信用できない. 違う方法や場所や時期にも同じ結果が得られたら,とても信用できる. 意味があるのは,統計学的にとっても有意な結果をひとつだけ得ることじゃなくて, 有意な結果が繰り返し得られること.

いろんな状況でおなじように観察されることはより一般性が高いとなると, メタ解析は有用かもしれない.でも,結果が有意じゃなかった場合とか, 一般的な認識と違う結果が出たときなどは論文にならないことが多いというバイアスが あるとすると,メタ解析もまちがった結論を出してしまうかも.

※メタ解析とは,たぶん,これまでのたくさんの論文の結果を集めてきて 統計処理をするような解析のこと.

かわりは何だ?

仮説検定がだめならなにをしたらいいんだ? というわけで替わりの手法をいろいろご紹介.

推定と信頼区間

たとえばある処理の効果があるかないかではなくて,ほんとに知りたいのは効果の大きさ ならば,効果の大きさの推定値を信頼区間付きで示せばよい(たとえば 95%の確率で この範囲にあります,というように).信頼区間の大小は,推定の信頼性についての 情報になる.

推定があまり使われてない理由を並べてみる.

これはみんな理由になってない.

※参考: 青木繁伸さん(群馬大学)の 統計学自習ノート 推定 のページ.

決定理論

猟期をどう設定するか,木を伐るかどうか,殺虫剤を使ってよいかどうか,といった 判断のためには,仮説検定は不向き. 選択肢ごとのコストを考慮してないから. こういう場合は統計的決定理論を使うのがよろしい. 不確実性があるなかで,利得とコストを勘案して合理的な判断をするための理論.

※参考: 計量社会科学ワークショップのサイト 統計的決定理論の考え方

モデル選択

情報量基準(たとえば AIC)は,データに統計的モデルをあてはめるときに どのモデルがどのぐらい適切かを判断する客観的基準となる. 複数のモデルを検討して,それぞれの相対的な確からしさを評価する.

※参考: 武蔵工大・後藤研究室のページの 統計的モデル選択問題とは や,久保拓弥さん(北大)の 確率論的モデルと統計学的推定 など.

ベイズ的アプローチ

ベイズ的アプローチは,仮説検定のかわりだけでなく,推定や決定のかわりにもなる.

※ 以下,ごくはしょったベイズ統計の説明が書かれているが, これだけ読んでもイメージがわかない. 青木繁伸さん(群馬大学)の 統計学自習ノート ベイズの定理 などを見ると,もう少し分かった気がする.

結論

雑誌の編集者やレフェリーは,「統計学的な手法を使え」と言うだけでは不十分で, 「適切な統計学的な手法を使え」と言わないといけない. 一番よく見る不適切な統計手法は仮説検定,とくに, もともと偽だと分かってるような仮説の検定だ.

この論文には,何も新しいことは書いてない. すでに数多の論文で主張されてきたことばかりだ. でも,そのメッセージは野生生物の研究者にはじゅうぶん伝わってこなかったようだ. 私たちがやってる研究は重要だ.だから,いちばんいい道具を使わなきゃいけない. 統計学的仮説検定がいちばんいい道具だってことはほとんどないと言ってよい.


| Top Page | 雑多ないろいろ |