統計の「正しさ」とは何か『統計学を哲学する』
確率・統計についてモヤモヤしているこの感覚、伝わるだろうか。
コイン投げで喩えるならこうだ。
- コインを投げ続けると、表と裏の出る数は、同じ回数に近づく ←分かる
- 次にコインを投げると、表が出る確率は1/2だ ←分からない
歪みのないコインを投げ続けたデータを見ると、表が出る確率は1/2に近づいていくだろうが、それは次に表が出る確率が1/2であることを意味しない。この2つは違うものなのに、同じものとして扱われてることにモヤモヤする。
もちろん、この発想は一般的ではないことは承知している。だから公言せずに独りでモヤモヤしていた。現実世界から得られたデータを数学的に裏付ける統計学こそが最強の学問であり、「科学的に証明された」とは「適切な統計的処理により結論にお墨付きが出た」と同義だと自分を納得させてきた。
ところが、このモヤモヤ、私だけではないらしい。本書を読むことで、私がどこで間違えていたかが分かった……と同時に、このモヤモヤこそが統計学を哲学する箇所であることも見えてきた。
富くじのパラドックス
私は、「コインをたくさん投げて得られた」統計データの話と、「理想的なコインならこんな結果になるはずだ」という理論上のモデルの話を混同していたのだ。
- 観測されたデータから導かれる傾向に基づく「統計モデル」
- 理論的な仮定を前提として数学的に導かれる「確率モデル」
両者の違いは、富くじのパラドックス(lottery paradox)だと、見えてくる
富くじのパラドックス
・100枚のくじがある
・あたりは1枚で、残り99枚ははずれ
・100人に対し、くじを1枚ずつ配る
観測されたデータから判断する統計モデルでは、一人一人のくじを独立した事象と見なす。そのため、「その人が持っているくじが外れである確率は99%」という判断を下すことになる。
ベイズ統計を用いると、事後確率は0.99になる。もし「事後確率0.99以上はその仮説が正しいと判断する」というルールを採用するならば、「その人が持っているくじは外れである」となる。
この評価は個々のくじに対するものであり、全体(1枚はあたりがある)ことが反映されていない。統計モデルからすると、100人の全員に対して「はずれ」と判断しても、問題ないことになる。だがこれは、前提と矛盾する。
一方、確率モデルでは「あたりは1枚ある」ことを前提に確率を計算する。100人全てについて、「あたりを持っている確率」を再分配する形で考え、観測データに基づいて「ある人がはずれである確率が高い」という情報を更新しつつ、「誰かはあたりである確率が存在する」ことを維持していく。
いま、「100枚のうちあたりは1枚」という前提で話しているが、実際に統計が適用されるのは現実だ。くじの総数もあたりの数も分からないし、引いた結果が必ず出るとは限らない。それにもかかわらず、「確率99%」は「確率100%」で正しいとしてしまっているのではないだろうか。
「いや、99%と100%は違う」というツッコミはあるだろうが、くじの数を一億枚に増やしてみよう。はずれる可能性は99.999999%になる。もちろん現実での統計値は、1億回も取れない。
統計の「正しさ」とは何か
この、統計で「正しい」とはどういうことか?
この疑問に正面から答えたのが本書だ。推定値の偏りのなさや帰無仮説の判断、尤度やp値など、統計学の「正しさ」を掘り下げていくと、認識論的に「正しいとは何か」という哲学の問題になる。言い換えるなら、「統計学はなぜ哲学の問題となるか」という疑問に対し、統計学と哲学の両方から迫ったのが本書だ。
また、一口に統計学と言っても、それは一枚岩の理論を指すわけではなく、ベイズ主義や頻度主義といった様々な理論が含まれる。それぞれにおける正当化のアプローチは異なっており、数学的な証明には還元されない哲学的な問い(=調査の対象となる世界がどのようなモデルとなっているか?)が待ち構えている。
一方で、「『正しさ』なんてどうでもいい、次の予測ができればいい」というプラグマティックな立場もある。世界の正しいモデルを追求するよりも、次のコインの裏表が分かればいいという深層学習からのアプローチだ。では、AIから得られた結果は「正しい」と呼べるのか?呼べるのであれば、何を根拠に正当化されるのかといった問題がある。
ベイズ主義、頻度主義、深層学習といった理論や技法を横軸とし、それぞれの正当化の根拠を掘り下げ、統計学と哲学の限界がどこにあるかを明らかにする。
例えばベイズ主義の場合。ベイズ統計は、仮説やモデルそのものを正当化しない。代わりに、そのモデルを前提として、仮説やパラメータがどれだけ妥当なのかという信念を、観測データに基づいて更新していく。
その結果、「どのモデルが観測データに適合するか?」といった比較検討にも適しているといえる。しかし、これは「どのモデルが『正しい』か?」というよりも、むしろ、「どのモデルが観測データを最もよく説明できるか」という話になる。
これは、ぶっちゃけ「正しさ」とは、観測データと既存の理論との整合性に還元されているのかもしれない(乱暴すぎるかも)。つじつまが合うようにモデリングして、それまでのデータや理論の蓄積とより整合性が取れている数値を、「正しい」とみなしているのではないか……と懸念する。
この「正しさ」を一歩間違えると、再現性の危機や研究グレーの世界になる。[科学研究はどこまで信用できるか]で書いたが、「正しさ」をはき違える例は枚挙にいとまがない。
テセウスの船のパラドックス
モヤモヤの奥にあるものが、テセウスの船の喩えだ。
- テセウスが乗っていた船を構成する板は一枚ずつ新しい板に交換される
- すべての板が交換された後、その船は元の船と同じと言えるのか?
「同一性とは何か」を提起する哲学の問題なのだが、これを科学研究の在り方についてなぞらえている。科学者とはテセウスであり、自分が乗っている理論(=船)で研究を続けていく。新たな観測データや、別のモデルや仮説、解釈に合わせて、元の理論との整合性を取りつつ、部分修正していく必要がある。
たとえ損傷が激しくても、船を降りて、いわば外側から全体をオーバーホールすることはできない。乗り続けたまま、補修していくほかはない。
私がモヤモヤしているのは、整合性を取っている箇所になる。
科学者は、新たなデータや仮説と、現在の理論と合っていない箇所の整合性を取ろうとする。つまり、新しい部分と理論が関連している箇所だ。いわば船の外壁に近く、海という現実に接している部分だ。
そして、船の内側に行けば行くほど、「実績がある」とか「証明済み」として顧みることがなく、その定数や方程式は、パラダイムシフトでもない限り検証されない(むしろ、その定数や方程式に整合するように、解釈やモデルが改変されるといっていい)。
しかし、その内側の部分に、「確率99%」で正しいとしてしまっている箇所があるのではないか?事実としては「1枚あたり」があるはずなのに、見落とした仮説が混ざっているのではないかと考える。
その結果、理論の継ぎはぎでは整合性が取れず、理論と合わないどころか、矛盾したデータが無視できないほど出てきたため、「黙って計算だけしてろ」と開き直る科学者まで登場する始末だ。
この検証をするためには、最新のデータで理論全体を内側から再テストする必要がある。ただし、できるのは船に乗っている科学者ではない存在―――充分な計算量と膨大なデータ処理能力を持ち、人のバイアスからフリーであるAIにやってもらうと面白いかもしれぬ。
ただし、そうした検証が可能だとして、出てきた結果の何をもって「正しい」とするのかという泥臭い問題は、相変わらず哲学の領域に残されている。
最近のコメント