NCBI GEOの使い方5 GEO2Rの使い方調査5

前回保留にした、多重検定の補正の話です。

　ある有意水準 α で検定を N 回行うと、本当は有意差がないのに誤って帰無仮説を棄却してしまうことが期待値 Nα で起こってしまいます。そこで、余計に帰無仮説を棄却しないように個々の検定の有意水準をいじってやる必要がある、というモチベーションです。
　有意水準をいじるのは p 値をいじるのと同等です。 GEO2R では調整した p 値を表示できます。
　以下では GEO2R (というか limma)で使える6つの補正手法について説明します。
　なお
　N 検定の回数
　α 有意水準
　 $\120dpi p_i$ 元の p 値を昇順に並べたときに i 番目となる p 値
　つまり $\120dpi p_1 \leqq p_2 \leqq \ldots \leqq p_n$
　 $\120dpi p^*_i$ 補正後の p 値
　とします。

・Bonferroni の方法
　各検定の有意水準を α/N とします。これは各 p 値を N 倍するのと同じ。
$\120dpi p^*_i=p_i\times N$
　個々の帰無仮説が棄却される確率が α/N 以下ですから、1つでも帰無仮説が棄却される確率は次式により α 以下となります(途中の近似は α<
　「棄却すべき帰無仮説を棄却できなくても、棄却すべきでない帰無仮説を棄却してしまう確率を α で抑えたい」というようなスタンスです。
　全遺伝子の中から2群間で発現量に差があるものを探す場合だと、 N=30000 くらいになり得ます。 α=0.05 とすれば個々の検定の有意水準が 1.7*10^-6 と、非常に小さくなってしまいます。かなり厳しいです。

・Holm の方法
　Holm の方法について説明する前に、 step-up 方式と step-down 方式について説明します。
　Bonferroni の方法では各検定の有意水準を等しく N で割りましたが、以下で紹介する各方法では、 p 値を昇順に並べ、その順位に依存する値で調整します。その際に step-up 方式では p 値の大きい方から調べていき、調整後の p 値が有意水準より小さくなるものが見つかったら、以降の帰無仮説を全て棄却します。
step-down 方式ではその逆で p 値の小さい方から調べていきます。調整後の p 値が有意水準より大きくなるものが見つかったら、以降の帰無仮説を全て採択(あるいは判定保留) します。
　それで、 Holm の方法ですが、これは step-down 方式で各有意水準を N-i+1 で割るものです。つまり
$\120dpi p^*_i = \min\{1, \max\{(N-i+1)p_i, p^*_{i-1}\}\}$
　p 値は 1 を超えてはいけないので外側の min は明らかです。内側の max は step-down 方式の性質で、一つ順位が上の帰無仮説が採択されたら以下の帰無仮説も全て採択されることを表しています。次の Hochberg の方法の説明のあとで合わせて例を示します。
　p 値が大きくなるにつれて有意水準が緩くなりますが、間違えて棄却する確率は α で抑えられます。

・Hochberg の方法
　Holm の方法の step-up 版です。
$\120dpi p^*_i = \min\{1, \min\{(N-i+1)p_i, p^*_{i+1}\}\}$
　内側の min は step-up 方式の性質で、一つ順位が下の帰無仮説が採択されたら以上の順位の帰無仮説も全て棄却されることを表しています。
　では例です。帰無仮説が 5 つあり、 p 値が
　 $\100dpi p_1=0.011,\ p_2=0.012,\ p_3=0.02,\ p_4=0.022,\ p_5=0.07$
　であるとします。この場合 Holm, Hochberg のそれぞれの方法による調整 p 値は以下の表のようになります。

i	$\100dpi p_i$	N-i+1	$\100dpi p_i(N-i+1)$	$\100dpi p^*_i$ (Holm)	$\100dpi p^*_i$ (Hochberg)
1	0.011	5	0.055	0.055	0.044
2	0.012	4	0.048	0.055	0.044
3	0.02	3	0.06	0.06	0.044
4	0.022	2	0.044	0.06	0.044
5	0.07	1	0.07	0.07	0.07

　
・Benjamini & Hochberg の方法 (BH 法)
　棄却される仮説のうち、本当は差がないものの割合を FDR(False Discovery Rate) といいます。これを有意水準以下に抑える手法です。
　これまでと違い、「棄却すべきでない帰無仮説を棄却してもいいから、棄却すべき帰無仮説はできるだけ棄却したい」というスタンス。
　step-up で、各有意水準を i/N 倍します。
$\120dpi p^*_i = \min\{1, \min\{p_i \times \frac{N}{i}, p^*_{i+1}\}\}$
　有意水準が $\120dpi p_i$ だとすると、本当は差がないのに有意水準を下回る帰無仮説の個数の期待値は $\120dpi Np_i$ です。この場合実際に棄却される帰無仮説の個数が i 個ですから、 $\120dpi FDR \leqq Np_i/i$ となります。したがって、 $\120dpi Np_i/i \leqq \alpha$ とすれば FDR も α 以下で抑えられることになります。
　制限の度合いが適度で、マイクロアレイデータの補正においては最も広く使われています。 GEO2R のデフォルトでもこの方法が使われます。

・Benjamini & Yekutieli の方法
　BH 法を厳しくした方法です。
　 $\120dpi k=\sum_{j=1}^N \frac{1}{j}$
　とします。 k は N だけに依存する定数で、 1 以上の値をとります。この上で
　 $\120dpi p^*_i = \min\{1, \min\{p_i \times \frac{Nk}{i}, p^*_{i+1}\}\}$
　BH 法と比べて、全ての有意水準が 1/k 倍され、厳しくなっています。

・Hommel の方法
　少し複雑です。まず
　 $\120dpi j=\max\{i\ |\ p_{n-i+k}>\frac{k\alpha}{i}\ (k=1,2,\cdots,i)\}$
　で与えられる j を求め、有意水準を α/j とするものです。
　Hochberg の方法より多くの帰無仮説を棄却することが知られていますが、実際にはあまり使われないようです。

参考
Bonferroni法、Holm法、False Discovery Rate 大阪大学腎臓内科
 FDR を制御する多重比較法の性能評価
 Multiple comparison procedures based on marginal p-values