科学研究はどこまで信用できるか『あなたの知らない研究グレーの世界』『サイエンス・フィクションズ』
研究不正について、私の認識が間違っているのかもしれない。もし誤っているのであれば、指摘してほしい。
まず、2つのケースを紹介する。次に、私の判断を述べる。
ケース1
薬剤Xがタンパク質の血中濃度を上昇させるという仮説検証のため、動物実験を行った。薬剤Xの投与で濃度の平均値は増加することが判明したが、統計学的検定ではp=0.06と、有意水準の0.05にわずかに届かなかった。教授に相談したところ、追加実験を行うこと、さらに実験のたびに検定をして、p<0.05を得た時点で実験を終了するよう指示を受けた。
ケース2
疾患Yの重症化因子を調べるため、診療録から収集した疾患Y患者のデータを元に、臨床検査値と生活習慣の関連性を分析したところ、生活習慣Zを有している患者の予後が不良となる結果を得た。そこで「生活習慣Zを有する疾患Y患者は予後不良である」と学会発表した。
私の考えはこうだ。
ケース1は、「グレーだけどNGではない」だ。薬剤Xの効果が検証できたのは事実だが、偶然ではなく意味がある(有意)と見なされるp値になるまで実験を行うのはフェアじゃない。他の条件を検討して、可能であれば実験に組み込むべきだろう。
ケース2は、「問題ない」と考える。正当なデータを分析して、そこから導き出される仮説を述べているのだから。ただし、該当の因子がどの程度結果に影響するかは、検証の対象となるだろう。
病理専門医の回答
『あなたの知らない研究グレーの世界』によると、ケース1は「限りなくクロに近いグレー」で、ケース2は「問題行為」だという。
ケース1は「pハッキング」と呼ばれる行為になる。
「p<0.05」は、仮説が偶然かもしれない可能性が5%より下であることを示す。「5%」という数値は慣例上の値に過ぎない。だが、学術雑誌での論文受理の判断の目安となっている以上、この数値に固執する研究者が多いのも事実だ。
ケース2は「HARKing」と呼ばれている。
HARKing は、「Hypothesizing after the results are known」の略 であり、訳は「結果がわかった後の仮説設定」になる。収集したデータを分析して得られた有意な結果を元に、後付けで仮説を構築し、あたかも「仮説検証研究」の体裁で公表する行為になる。要するに後出しジャンケンだ。
『あなたの知らない研究グレーの世界』は、東大理学部卒で病理専門医が著したものになる。研究不正といっても明確な線引きが難しいグレーなところがあり、どのような場合に問題となるかを様々な事例とともに解説している。
何十回も実験をくり返し、検証に最も都合が良いデータのみを残すチェリーピッキングや、巨額な研究費に見合う成果を求められるあまり結果を粉飾するスピン、一つの成果を複数の論文に小分けして論文数を稼ぐサラミソーセージなど、多種多様の技法が紹介されている。
これらを見ていると、「完全にクロ」から「淡いグレー」まで不正はグラデーションになっていることが分かる。
心理学者の回答
『サイエンス・フィクションズ』によると、pハッキングもHARKingも、どちらもクロになる。
まず、pハッキングについて。
査読ウケの良いp値を求めるあまり何度も実験するのは論外で、結果が得られない実験(NULL結果)として公表するべきだという。だが、科学者はそうしたネガティブな結果を避ける傾向にあり、NULL結果はお蔵入りとなる。そのため、出版されているデータはポジティブな方に偏るというバイアスが発生するというのだ。
次にHARKingについて。
本書では「テキサスの狙撃兵」と呼んでいる。納屋の壁を適当に撃って、弾丸が集中的に当たったところに的の絵を描いて、ここを最初から狙っていたと主張するやり方だ。詐欺師なら自分のやっている詐欺を自覚しているが、科学者は無自覚にこれをやっている分、悪質だという。
『サイエンス・フィクションズ』は、キングス・カレッジ・ロンドンの精神科医が著したものだ。詐欺、バイアス、過失、誇張など、様々な手口により、科学の世界では悪質な不正が蔓延しており、再現性の危機に瀕しているという。
研究不正の手口
例えば、データの改ざん。
ヒトの胚のクローンのデータを捏造したファン・ウソク、STAP細胞の画像を改ざんした小保方晴子、論文の撤回件数の世界チャンピオンの藤井善隆が紹介されている。権威ある学術誌である『サイエンス』や『ネイチャー』に掲載されたことで、世界中の注目を集め、詮索にさらされ、結果、不正が暴かれることになった。
最高峰の学術誌でないならどうか。生物学の40タイトルの学術誌から2万を超える論文を調査したところ、フォトショップを利用したファン方式のトリミングや、小保方流の画像の切り貼りが検出され、3.8%の論文に問題が発覚したという。
あるいは、チェリーピッキング。
新しい抗がん剤となる化合物の薬効を検証するとき、予想された結果が出ない場合、実験者は仮説を疑うのではなく、自分の技術が未熟なせいだと考える。特に、教授が考えた仮説を助手が実験する場合がそうだ。
助手は、あきらめることなく何十回も実験をくり返し、ついに望む結果を得ることになる。教授は大いに喜び、助手を高く評価するだろう。問題は、誰も悪意を持っていないことだ。むしろ、熱意と野心を持った教授のもとで懸命に努力する若き研究者の美談にすら見える。
だが、やっていることは結果の出なかった実験(NULLの結果)の棄却だ。不都合な事実に目を向けず、売れる(=論文になる)サクランボだけを結果とするチェリーピッキングという技法だ。
悪意の有無に関係なく、自分が携わっている分野の常識が「正しいはず」という前提で、データを分析し、結果にまとめる。さらに、その結果を元にして「正しいはず」という思い込みの元、別の実験が行われ、バイアスが再生産されてゆく。
こうした確証バイアスが分野全体に及んでいたのが、アルツハイマー病のアミロイドカスケード仮説になる。この仮説は、アミロイドβの蓄積が病気の要因とするもので、莫大な研究資金が投入されてきた。だが、アミロイドβと病気は、因果ではなく相関関係であることが明らかになっている。
にもかかわらず、アミロイドカスケード仮説を支持する研究者がいる。かつて教科書で学び、慣れ親しんだ「常識」があまりにも強固であるため、バイアスに気づけないのだ。マックス・プランクがいみじくも言ったように、「古い間違った考えは、データによってではなく、頑迷な支持者が全員死んだときに覆される」まんまだ。
オープンサイエンスという解決策
『サイエンス・フィクションズ』によると、こうした問題の背景には、様々な要因が横たわっているという。
右肩上がりに出版される莫大な論文数や、研究プロジェクトの巨大化、インパクト・ファクターにより決まる人事査定、「論文数=ボーナス」とするインセンティブ、資金提供する企業との癒着、「出版か、さもなくば死を(publish or perish)」とする風潮がある。
これらが、査読による学術論文の品質を歪め、ひいては科学システムの本性を捻じ曲げているという。
査読システムは、性善説に則っている。
査読する人は、そのデータが改ざんされていることなんて考えない。まっとうな科学者がまっとうに研究をした成果なのだから、当然、そのデータは正しいものだとして受け取る。もちろん、データの整合性や生データの乖離をチェックするツールはある。だが、そうしたチェックを見越して改ざんされたデータの場合、悪意を見抜くことはできない。
こうした問題解決のためには、オープンサイエンスを突破口にせよと説く。
オープンサイエンスとは、科学的プロセスのあらゆる部分を、可能な限り自由にアクセスできるようにする試みだ。研究論文の全てのデータと、それを分析するために使用した全てのコードやソフトウェア、関連する全資料が公開され、ダウンロード可能とする。
実験を始める前に、仮説はワーキングペーパーの形でオープンサイエンスフレームワークに登録される。タイムスタンプ付きで記録されることにより、HARKingを困難なものにできる。全ての論文は出版される前のプレプリントの形で公開され、学術誌の編集者は自分が掲載したい論文を選ぶキュレーターのような役割となる。
そして、「再現できなかった」「仮説が否定された」ことを公開するNULL論文の拡充を提唱する。「刺激的だが根拠が薄い」研究よりも、「退屈だが信頼できる」研究を重視し、再現研究により多くのインセンティブを与えることによって、歪められた科学を正せという。
「再現できなかった=仮説の否定」なのか
オープンサイエンスの試みは重要だろうし、科学の品質保証の一つとして、取り入れていく必要があるだろう。
しかし、完璧でないシステムなら壊してしまえというロジックは、おかしいと考える。
科学は人間が作ったものだから、完璧ではありえない。客観性はあくまで目指すべきものであり、無謬であることを科学は保証しない(そう嘯く科学者がいることは否定しないが……)。
オープンサイエンスを取り入れるのは必要だが、そのために現行をガラガラポンするのは、やり過ぎだろう。
さらに、「再現できない=仮説の否定」というスタンスでいるが、本当だろうか?過去のある実験を再現しようとしたら失敗した(=再現できなかった)ということは、過去の実験結果の否定になるのか?
そうとは考えにくい。厳密に同じ条件で再現することは不可能だし、有名な実験なら、被験者自身も予備知識として知ってしまっているだろう。「再現できなかった」という実験が一つあったというだけであり、他の実験と同様、「再現できなかった」実験を積み重ねていく必要がある。
本書では、「再現できなかった」実験例を嬉々として挙げている。しかし、「再現できた」実験がどれくらいあったのか、両者を比較してどちらが多いのかは言及されていない。「無いこと」の証明は悪魔の証明と呼ばれ、非常に困難だ。とはいえ、せめて、再現性を試みた実験の全体の数のうち、再現できなかったものの割合を示してほしい。「マスコミが数を持ち出してきたら割合を見ろ、マスコミが割合を出してきたら母数を見ろ」という金言があるが、本書に当てはめると、ツッコミどころが出てくる。
有意性やHARKingは「罪」なのか
「p<0.05」の有意性を求めたり、HARKingする行為を断罪する姿勢もいただけない。
もちろん、p値だけを追求するのはNGだ。しかし、偶然ではないことを示す目安の一つとして、p値は有効だ。仮にこれを無くすとしたら、何を基準にしてその実験が恣意的でも偶然でもないことを示せばよいのだろうか。何をもって有意とするかを、p値も含めて実験前に整理した上で検証するのであれば、p値は有用だと考える。
また、HARKingがダメという主張には納得できない。
大量のデータは、素材のままでは使えない。何らかの観点から「あたり」を付けて、興味深いストーリーを見出し、それを仮説として検証し、「あたり」にそぐわないデータは検証範囲「外」とみなすことで、仮説を理論に仕立て上げる……このプロセスは、科学の営みそのものだ。
結果の「あたり」を付けてデータを舐めまわし、因果やパターンを見出す。これが禁じられたら、少なくとも経済学と量子力学は科学でなくなってしまう。
「テキサスの狙撃兵」よろしく後付けで作られた「的」が充分に興味深ければ、追試や再試験が行われるだろう。そして「的」が正しければ、他の実験結果の指示を受け、より精緻に作り込まれていくに違いない。的がそうなっている理屈は、後から捻出されてゆく。量子力学や経済学の理論は、そうして出来上がっていったものだ。
1回目のHARKingは、追試によってすぐに検証できる。意味が無ければ消えるだけだ。有意性だけで中身のない実験は、再現できなければ見向きもされなくなるだろう。時間はかかるものの、科学は、自分自身で正すことができる。
科学の歴史は、発見と反証の歴史だ。
天動説、瀉血、エーテル、フロギストンなど、広く受け入れられていた理論が、後に誤りであったことが明らかになった例は枚挙にいとまがない。アルツハイマー病の仮説が誤っていた例を始め、科学的発見が間違っていたエピソードが多数紹介されているが、誤りを発見できたというまさにその点で、科学はきちんと機能していると考えていい。
また、改ざんしたり虚偽のデータを捏造する科学者がいるのは認める。科学者だって人間だから、カネや名声の誘惑に負ける人だっているはずだ。だがそれは、嘘吐きの科学者がいるだけであって、科学者が嘘吐きであることにはならない。
そして、エーテル理論の話と同様に、嘘吐きの嘘はいずれバレる。バレたからこそ、本書で紹介されることになったのだから。全ての嘘を即座に暴けるほど、今のシステムは洗練されていないが、遅かれ早かれ、誤りは正されていく。
科学は人間の活動であるが為に、人間の欠点である偏見や傲慢や不注意や虚栄心などが刻み込まれている。だが、科学は人間の活動であるが故に、自分で自分の誤りに向き合うことができる。
ひょっとすると、私の「科学観」は楽観的でおめでたいのかもしれぬ。だが、それでも科学を信じたいと考えさせられたのが、この2冊になる。
| 固定リンク
コメント