若者論を研究するブログ

打ち捨てられた知性の墓場

MENU

p値に関するASA声明とその解説

以前書いた「ゆとり教育とは何だったのか―俗説に対する批判的検討」という私的な論説に、補遺として付けていた「p値に関するASA声明(The ASA’s statement on p-values)」の拙訳と解説です。本文を参照する形で書かれているため、一部要領を得ない記述がありますが、特に問題は無いと判断しそのまま載せています。何分、素人の書いた文章ですから、誤った記述も多々あると思われます。お気づきになられた方はコメントにてご教授いただけますと幸いです。

1. p値は,あるデータと特定の統計的モデルがどれだけ「不一致」しているかを示すことができる

p値は,ある特定のデータとそのデータについて提案された特定のモデルの間にみられる不一致性を要約する一つのアプローチを提供する。p値が使われる最も一般的な状況は,帰無仮説と呼ばれるものと,その仮定に基づいたモデルが存在する場合である。多くの場合,帰無仮説は「2 群の間に差がない」というように効果が存在しないこと,或いは,要因と結果の間に(因果的な) 関係性がないことを前提する。p値を計算するときの仮定が真であるという前提の下では,p値が小さくなるほど帰無仮説と(観測された) データとの統計的不一致性は大きくなる。この不一致性は,帰無仮説,或いは前提された仮定に対して,疑問を投げかけているか,反証を提供していると解釈することができる(Wasserstein and Lazar 2016 p.8)。

解説

これはp値についての過不足ない説明である。ここでいう「特定のデータ」と「特定のモデル」というのは,観測されたデータと,帰無仮説に従うと仮定した場合にそのデータが従う確率分布を意味している。たとえば,6.4 節でみたように,大標本調査における「2群の平均の差」という現実に観測されたデータは,帰無仮説が正しいと仮定した場合には特定の正規分布に従うことを説明した。或いは小標本の場合にはt分布と呼ばれるものに従うし,平均ではなく分散を検定する場合には,その統計量は\chi^2分布と呼ばれるものに従う。このように,p値というのは,現実に観測されたデータと,帰無仮説が真という仮定に基づいてつくられた統計モデルがどれだけ「一致していないのか」を示すものであり,それ以外の何物でもない。

ここで注意しなければならないのは,p値,或いは検定と呼ばれるものは,帰無仮説を棄却する判断材料を提供するのであって,帰無仮説が真であること,或いは対立仮説が偽であることについての積極的な判断材料は提供しないということだ。帰無仮説が棄却されなかったということは,単に観測されたデータと帰無仮説は矛盾しないということが示されただけである。帰無仮説が真であることを証明したいならば,他の全ての対立仮説を否定しなければならない。しかし,先にも少し触れたように対立仮説というものは無数に存在するため,検定ではもっぱら帰無仮説を棄却するかしないかが問題となる。従って,帰無仮説が棄却されなかった場合には,判断は保留される。帰無仮説は正しいとも正しくないとも言えない。

2. p値は対立仮説(studied hypothesis) が真である確率,或いはデータが偶然に生成されたものである確率を測定しない

研究者はしばしばp値を,帰無仮説が真であるかについて,或いはデータが偶然に生成されたものであるかについての指標として利用したがる。しかし,p値はどちらにも使えない。p値はあくまでも,特定の仮説的説明に関するデータについての言及であり,説明それ自体についての言及ではない(同上p.9)。

解説

おそらくこれは,p値についての最も一般的な誤解だろう。たとえば,あるデータについてp=0.01という結果を得たとき,この結果はしばしば「対立仮説が真である確率が99%である」,或いは「その結果が偶然によるものである確率は1%である」のように誤って解釈される。こうした解釈はデータの「基準率」を無視している。基準率とは簡単に言えば,ある事象が起きることについての,何らの条件も加えない「素の」確率である。ベイズ統計でいうところの事前確率だ。

たとえば,1000種類の「癌に効果がある」とされる薬の効果を検定したいとしよう。このとき,1000種類の薬のうち,本当に効果がある薬が1種類しか含まれていないなら,基準率は1/1000であり,つまり0.1%となる。この基準率と有意水準0.05の下で検定を行うとどうなるだろうか。999種類の薬には癌について何の効果も発揮しない。しかし,有意水準は0.05と設定されたので,約50種類の薬は棄却域に入ることになる。では,この50種類の薬の一つ一つが本当に癌に効く薬は何%になるだろうか。もし,本当に効果がある薬が正しく棄却域に入っているとしても,それぞれの薬の効果が偶然ではない確率はたったの,1/50 =0.02,つまり2%しかないのである。

仮説検定はあくまでも,帰無仮説が真であると仮定した場合に,ある特定の統計モデル(正規分布t分布や\chi^2分布など) と観測されたデータがどれだけ一致しないか,或いは驚くべきかを示すのであって,その仮説自体が真であるのか,偽であるのかについての確率を提供するわけではない。今見たように,基準率が低くなればなるほど,「まぐれ当たり」の可能性は高くなる。「95%の確率で正しい」と「2%の確率で正しい」では余りにも懸隔がある。

3. 科学的な結論やビジネス,政策上の決定は,p値が特定の閾値を超えたかどうかのみに基づいて判断されるべきではない

科学的主張や結論を正当化するために,「bright-lineルール(p < 0.05 のような)」を機械的に適用することは,データ分析や科学的推論を縮小させる慣習を生み出している。こうした慣習は誤った信念や,浅薄な意思決定につながる。ある結論は,特定の閾値を超えた時点で直ちに真となるわけではないし,逆に特定の閾値を超えなかった時点で直ちに偽となるわけでもない。

研究者は科学的な推論を引き出すために,調査のデザイン,測定方法の質,研究で示された現象についての外部的な証拠,データ分析の前提となる仮定の妥当性などの,多くの背景的な要素を利用すべきである。

現実の検討事項はしばしば「はい―いいえ」という二分法的決断を要求する。しかしこのことは,p値が(それ単体で) ある決定が正しいのかどうかを保証できることを意味しない。「統計的有意差(一般的にp < 0.05 と解釈される)」というものは,ある科学的発見(或いは示唆される真理) を主張するライセンスとして広く使われてしまっている。このことは,科学的プロセスに深刻な歪みをもたらすことになる(同上p.9)。

解説

基準率の無視がp値についての最も一般的な誤解であるなら,こちらはp値についての最も問題のある誤解である。p値が二分法的に使われることの問題点は,第一にそれが二分法的な思考をもたらすこと,或いは,それ自体が二分法的な思考の結果であることだ。現実には二分法的な判断が要求されることはいくらでもあるだろう。その判断の基準としてp値が使われることもあるかもしれない。しかし,二分法的な判断は,容易に二分法的な思考をもたらす。つまり有意差があれば「正しく」,有意差がなければ「正しくない」という誤った断定へと陥ってしまう。

第二に,p値それだけでは仮説の正しさについては何も判断できない。「有意差がある」という主張だけでは何も言っていないに等しい。先にも少しだけ触れたが,有意差というのは,どんなに小さなものであっても,標本サイズを大きくすればいずれは検出される。そのため,「A とB の間に有意差がある」という主張は,それだけでは「A とB は違う」と言っているだけである。この世に全く同一の存在は(殆ど) 存在しないという当たり前の主張を繰り返しているに過ぎない。そのため,p値を利用するのであれば,その効果がどれほど大きなものであるのかという情報も必要になる。或いは,事前に望ましい効果の大きさを想定して,その効果を検出できる確率から標本サイズを決定することもできる。

第三に,科学的な主張をするためにはp < 0.05が必要とする強迫観念は,科学的手続きに深刻な歪みをもたらす。たとえば,Head et al. (2015) は次のように指摘している。

今,(論文や雑誌で) 刊行された結果の多くで偽陽性が見つかることに関心が集まっている。現在の科学的慣行が,統計的に有意な結果をだすことの強烈なインセンティブとなっていることは多くの人間が主張している。そして,ジャーナル,特にインパクトファクターの高い名門では,不自然なほどに多くの統計的に有意な結果が掲載されている。研究者を雇用しようとする人間や研究のスポンサーは,しばしば研究者の論文数やそのインパクトファクターによって研究者の能力を評価しようとする。これらの要因によって研究者は,何とか統計的に有意な結果を出そうと,選択的に特定の問題を追及するか止めるかを決定し(selectively pusue),また選択的に研究アプローチを決定する(selectively attempt) のである。

p < 0.05なら正しく有用な結果であり,p ≧ 0.05ならば誤った無用な結果であるという二分法的判断は,研究者が「pハッキング」に手を染める誘因となる。p値という判断の手段それ自体が,求めるべき目的になってしまうのである。

4. 適切な推論は完全な報告と透明性を要求する

p値とそれに関連した分析は選択的に報告されてはならない。データについて複数の分析を行い,その分析の中から特定のp値(典型的にはある閾値を超えたp値) のみを報告することは,そのp値についての解釈を本質的に不可能なものにする。有望な結果だけを「つまみ食い」する行為は,「データのさらいあげ(data dredging)」「有意性の追求(signi cance chasing)」「有意性の探求(signi cance questing)」「選択的な推論(selective inference)」,或いはまた「p ハッキング」とも呼ばれる。これらの行為は公刊された文献における統計的に有意な結果の氾濫をもたらす。

それゆえ,これらの行為は厳に慎まなければならない。しかし,正式な手続きに則って行われる複数の統計的検定が必ずしもこうした問題を起こすわけではない。問題は,研究者がそれらの統計的結果に応じて,提示する結果を選択する点にある。もし,読者がそうした選択とその根拠を知ることができなければ,調査結果に対する解釈の妥当性は著しく損なわれてしまうのである。

そのため調査者は,研究において検討した帰無仮説の数,全てのデータセットについての決定,実施された全ての統計的分析,計算された全てのp値を公開しなければならない。p値とそれに関連した統計に基づいて科学的に妥当な結論を引き出すためには,少なくとも,どれだけ多くのどのような分析が実施されたのか,それらの分析(p値を含む)が報告の際にどのように選択されたのかを知らなければならない(同上pp.9-10)。

解説

統計的に有意な結果を出すのは難しい事ではない。統計学的分析は複雑ないくつもの手続きを経ているため,一つの問題に対して,複数の分析手法が存在しうる。もし,ある手法で有意差が検出されないならば,別の手法を使えばいい。それでも望む結果が出ないならば,別のアプローチをとることもできる。しかし,有意な結果を生み出すためのもっとも原始的で,かつ「有用な」方法は帰無仮説の数を増やしてやることだ。

たとえば,血液型が人のパーソナリティに与える影響を調べたいとしよう。そうすると帰無仮説はA,B,O,AB のそれぞれの血液型について四つの帰無仮説が存在することになる。このとき,偽陽性が得られる確率は何%になるだろうか。もし,有意水準が0.05ならばその確率は1-(0.95)^4*100 ≒ 18.5%,2割弱は有意な結果が出てしまうのである。しかし,不幸にも有意な結果が出なかった場合はどうしようか。条件を追加してみよう。幸い人の血液型にはRh因子というものがある。したがって,A ±,B ±,O ±,AB±の血液型に対応して,八つの帰無仮説が存在する。そうすると,偽陽性が得られる確率は1-(0.95)^8*100 ≒ 33.7%になる。3 回に1回は望む結果が得られる。

「血液型診断を信じるのはバカだけだ」と信じている人間も,この手の誤謬には鈍感である。たとえば4章でみた,「分数のできない大学生」などもこの応用例の一つだ。一つ一つの事象が起こる確率が極めて高いものであったとしても,それを何度か繰り返せば「例外」が生じる確率は案外高いのである。もし,ガンの原因を統計学的に調べたいのならば,原因と思われるのものを50種類ほどリストアップしてやればいい。そのうち1つ以上が「統計的に有意である」と言える確率は(片側検定の場合)9割を超える。

それゆえ,ある研究においてどれだけの帰無仮説が検討されたのか,その仮説がどのようなものであったのかを知ることが重要になってくる。また,このことは帰無仮説の数の問題だけではなく,調査の数の問題にも拡張できるはずだ。もし,何らかの事実を知りたい(証明したい) という,強い個人的・社会的欲求が存在すれば,それはそのまま,多くの調査を生み出す心理的・社会的インセンティブになりうる。また,こうして生み出される膨大な調査について,調査者の望むような結果の出なかった研究の公開が差し控えられるようになると,もはやこれらの調査群から何か有意味な推論を引き出すのは不可能となる。

5. p値,或いは有意差は,効果の大きさや結果の重要性を測定するものではない

統計的有意差は,科学的,人間的,或いは経済的重要性と同じではない。より小さいp値がより重要な,或いは大きな効果の存在を示唆するわけではないし,より大きなp値が重要性や効果の欠落を示唆するわけでもない。どんなに小さな効果であっても,十分な大きさのサンプルサイズを確保しするか,測定の精度を高めてやれば小さいp値を得ることができる。逆に,大きな効果であってもサンプルサイズが小さかったり,測定の精度が低ければ,それほど小さなp値は得られない。同様に同一の推定値であっても推定の精度が異なれば,p値の値は異なる(同上p.10)

解説

これまでにも何度か言及してきたがp値の大きさは,効果の大きさと標本の大きさに依存している。どちらが大きくなってもp値は小さくなる。p=0.0001 だとしても,それが「実質的」な違いを意味しているのかはp値だけでは判断できない。そこで,そうした違いの大きさを表現する指標が必要になることがわかる。この指標のことを「効果量」と呼ぶ。効果量は大別すれば,変数間の差の大きさを表現するものと,変数間の関連の強さを表現するものに分けることができるが,ここでは,一般にイメージされやすい変数間の差の大きさについての効果量を説明しよう。たとえば,あるテストにおける二つの集団の平均点の差といったものである。

今,二つの集団に対して同一のテストを実施したとき,その平均点の差が10点だったとしよう。下の図はその得点分布を示している。さて,この10点という差は大きいのだろうか,小さいのだろうか。そもそも基準がなければ判断はできないと思うかもしれないが、基準ならばある。それは元の集団の得点のバラつきである。たとえば,日本人成人男性の平均身長は170cm ほどである。これに対し,身長が150cmの人,或いは190cm の人というのは,一般に「小さい」或いは「大きい」と判断されないだろうか。それは,標準的な身長のバラつきに対して20cmという差があまりにも大きな差であるからだ。成人男性の場合,その身長の標準偏差は6cmほどである。20cmというのは標準偏差の3 倍以上にもなる。

img358

この図 の場合,さらに極端な分布となっている。それぞれの集団の標準偏差が1であるのに対し,平均点の差は10点にもなっている。一方の集団の最上位が,他方の集団の最下位程度の水準にも達していないのである。分かりやすいように,もう一つのパターンも示してみよう。

img359

こちらも平均点の差は10点となっている。しかし先ほどの図とは違い,二つの集団が重なり合っている部分が大きくなっていることがわかる。それぞれの集団の標準偏差は10 である。つまり,10点の平均の差というのは標準偏差1個分に収まるわけである。平均点の差は同じでも,明らかにその効果の大きさは違っている。

今まで見てきたように,異なる二つのテストの得点は,仮に同一の受験者集団のものであっても,そのままでは比較ができなかった。異なるテストではその平均点も標準偏差も異なるからである。同じことが効果の大きさについても言えるのである。

それでは,効果量を計算するにはどうすればいいのだろうか。これもテスト得点の意味付けの場合と同様である。つまり,平均点の差を標準化すればいい。異なる二つのテストの得点は,そのテストの標準偏差を利用して標準化した。二つの集団の平均点の差の場合は,それぞれの集団のデータをプールしたものから標準偏差を計算する。つまり,以下のような式になる。ただし, \bar{X}は標本平均,\sigma^2は標本分散,nは標本サイズである。

Cohen's\ d=\cfrac{\bar{X}_A-\bar{X}_B}{\sqrt{(n_{A}\sigma_{A}^2+n_{B}\sigma_{B}^2)/(n_{A}+n_{B})}}

分散の定義は,偏差平方和をデータの数で割ったものだった。ということは,分散にデータの数をかければそのデータセットの偏差平方和に戻すことができる。(n_{A}\sigma_{A}^2+n_{B}\sigma_{B}^2)/(n_{A}+n_{B})は,AとBという二つのデータセットの偏差平方和を全てのデータ数で割っている。これがプールされた標準偏差であり,効果量はこの標準偏差の何倍という数値で表される。上式のように,不偏分散ではなくそのまま標本分散を使った式を特にCohenのd などと呼ぶ*1。実際には不偏分散を使うことの方が多いだろう。その際は分母の自由度が-2になることに注意すれば後は同じである。

6. p値それ自体は仮説やモデルに関する良い尺度とはならない

研究者は,文脈や他の証拠が存在しないp値は限定された情報しか提供しないことを認識しなければならない。たとえば,0.05に近いp値それ自体は帰無仮説に対する弱い反証にしかならない。同様に,比較的大きいp値は帰無仮説を支持する証拠を示唆するわけではない。他の多くの仮説の方が,観測されたデータと同じか,或いはより一致したものであるかもしれない。したがって,他のアプローチの方がより有望そうであるならば,データ分析をp値の計算だけで終わらせてはならない。

p値に関する誤解や誤用の流行を鑑みて,何人かの統計学者は他のアプローチによってp値を補完したり,代替しようとしている。これらのアプローチにはたとえば次のようなものがる。信頼区間や信用区間,予測区間といった検定よりも推定を強調する手法。ベイズ統計学。尤度比やベイズファクターといった代替的な証拠の測定法。決定理論モデリングや偽発見率(FDR)などである。これら全ての測定法やアプローチは,より多くの仮定に依存している。しかし,これらの手法は,効果の大きさ(加えてそれに関連する不確実性)や,仮説が正しいかどうかについて,より直接的に検証できる(同上 p.11)。

解説

こうした代替的な手法については,一部の研究者や統計学者のみが考えていればいいわけではない。確かに,上記で挙げられた手法で統計学の入門書に出てくるものは少ない(というか私もよく知らない)。しかし,全く存在しないわけではない。たとえば,信頼区間などの母数の「推定」は,「検定」と並んでほとんどの統計学の教科書に出てくる手法だ。

信頼区間とは,真の平均点が含まれる範囲を,一定の確率を基準として計算したものである。たとえば,あるテストの真の平均\muについて,信頼係数95%の信頼区間50 \leqq \mu \leqq 60だったとしよう。これは,95%の確率で真の平均点\muが50~60点の中に入ることを意味している。より正確に言えば,95%区間推定とは,(ランダムに得られた観測値を使って)何度も区間推定を行ったとき,そのうちの95%の区間が真の平均点を含んでいるということだ。

信頼区間の利用を勧めているのは,単にそれが簡単だからという理由だけではない。区間推定のいいところは,検定と違って二分法的な判断に比較的陥りにくいことだ*2。テストAとテストBの平均点はこれこれで,その差は有意差がありますと言っただけでは,そこで思考が止まってしまう。とかく,教育を巡る議論は二分法的な判断に陥りがちだ。区間推定のように確率的な幅をもった議論ならば,思考にもゆとりが生まれるというものだろう。

信頼区間の推定

もう忘れてしまったと思うが,有意性検定の節で,「対立仮説は無数に存在するため,直接の検定対象にはできないが,棄却されない対立仮説の『範囲』を表現することはできる」と述べた。それが信頼区間である。

たとえば,ある母集団から抽出した100人に学力テストを実施したところ,その平均点が60点,標準偏差が15点だったとしよう。それでは,この母集団の「真の」平均得点は何点だろうか。ここで,「真の平均点は61点である」という控えめな仮説を立ててみよう。この仮説の検定は,帰無仮説の検定と全く同じようにできる。つまり,真の平均点が61点という仮定の下での分布に,60点という現実のデータが一致するかしないかを調べればいいのである。仮説を棄却する基準としては検定と同じように0.05としておこう。

それでは実際に計算してみよう。既に説明したように,標本平均の標準偏差は標準誤差とも呼ばれ,その値は母標準偏差を標本サイズの平方根で割ったものだった。また,標本平均は母平均の不偏推定量である。したがって仮説が正しいとき,その得点の分布は,平均が61点,標準偏差15/\sqrt{100}=1.5正規分布になるはずだ*3。それでは,この分布において得点が棄却域に入ってしまう境界はどこになるだろうか。正規分布において,有意水準0.05の境界点となるのは,\mu±1.96\sigmaであることが分かっている。今問題にしている正規分布は平均が61,標準偏差が1.5なのだから,境界点は58.1,64.0となる。以下の図は,「平均が61,標準偏差が1.5」のときの正規分布である。

img363

つまり,この分布において「60点」という現実の結果は十分にありうる結果だということだ。したがって,「平均が61点」という帰無仮説は棄却されないことになる。では次に,もう少し欲張って「真の平均は62点である」という仮説を検定してみよう。この場合,境界点は59.1,65.0となり,この範囲にも60点は含まれている。したがって「平均点が62点」という仮説も棄却されない。ではさらに,「63点が真の平均である」と主張してみよう。そうすると境界点は60.1,66.0となり,60点という現実のデータは棄却域に入るため,残念ながらこの仮説は棄却せざるを得ない。

このように棄却されない仮説(平均が61点,平均が62点,......)を残していくと,一つの不等式が出来上がるはずである。これを一般化してみよう。現実に観測された60点に対し,真の平均を\mu,標本平均の(母)標準偏差\sigmaとすると,その標準化量は=\cfrac{60-\mu}{\sigma}になる。この標準化量は標準正規分布に従っているので,次の不等式を満たす\muが棄却されない仮説ということになる。

-1.96 \leqq \cfrac{60-\mu}{\sigma} \leqq1.96 \Leftrightarrow60-1.96\sigma \leqq \mu \leqq 60+1.96\sigma  \Leftrightarrow58.04 \leqq \mu \leqq 61.96

これが「95%信頼区間」と呼ばれるものだ。この区間に含まれる母平均の推定値はそれぞれが,有意水準0.05の検定に生き残ることができる。たとえば,真の平均が61点であれば,60点という現実のテスト結果は,棄却域には含まれず,したがって「真の平均が61点」という仮説は無事生き残ることができる。しかし,真の平均がもし,65点であれば,現実の平均点が60点というのは,5%以下の確率で起こったまれな事象ということになり,したがって,「真の平均が65点」という仮説は残念ながら(真であるにも関わらず)棄却され,信頼区間の範囲には含まれないことになる。つまり,95%信頼区間とは,95%の確率で「当たる(真の平均が信頼区間の中に含まれる)」ような区間なのである。

参考文献

[1] Wasserstein, R., & Lazar, N. 2016. The ASA's statement on p-values: context, process, and purpose, The American Statistician Volume 70, Issue 2, 2016
[2] Head, M.L., Holman, L., Lanfer, R., Kahn, A.T., Jennions, M.D. 2015. The Extent and Consequences of P-Hacking in Science. PLoS Biol 13, e1002106
[3] Belia, S., Fidler, F., Williams, J., & Cummin, G. 2005. Researchers misun-derstand condence intervals and standard error bars., Psychol Methods. 2005 Dec;10(4):389-96.
[4] Cumming, G., & Finch, S. 2005. Inference by Eye Condence Intervals and How to Read Pictures of Data, American Psychologist, Vol. 60, No. 2, 170 180
[5] Cumming, G., Fidler, F., & Vaux, L.D. 2007. Error bars in experimental biology, The Journal of Cell Biology. 2007 Apr 9; 177(1): 711.

*1:不偏分散を使ったものをCohen′s dと呼ぶこともある。どっちが正しいのか分からないので教えてほしい。

*2:ただし,区間推定(というよりもエラーバーの読み方)にも誤解・誤用はつきものである。詳細はBelia.S et al(2005); Cumming et al(2007); Cumming and Finch(2005)等を参照のこと。

*3:ここではn=100が十分に大きいとして,(標本平均の)標本標準偏差を母標準偏差としている。