NCBI GEOの使い方5 GEO2Rの使い方調査2~4

デザインを変えてみました。やっぱピンクじゃないと。

調査3 回分のまとめです。まだ十分ではありませんが、まとめられるところまで。

GEO2R の各タブについて。
・GEO2R
　解析結果を表示する。以下各カラムについて。

　adj.P.Val
　　補正後のP 値。補正については後で。
　P.Value
　　生のP 値。
　t (サンプル群が2 つのとき)
　　t としか書いていないけれども実は普通のt とは少し違う。moderated t-statistics(調整t 統計量) と呼ばれるもの。普通のt との違いは標準偏差。
　　まず普通の標準偏差を全ての遺伝子について求める。これらからpooled standard deviation(日本語は「合併標準偏差」らしい) $s_0$ を求める。
　　 $s_0^2 = \sum(s_i^2(n_i-1))) / \sum(n_i-1)$
　　これを用いて、
　　 $\tilde{s}_i^2 = (s_i^2*d_i + s_0^2*d_0) / (d_i+d_0)$ (d は自由度)
　　とする。
　　全遺伝子の標準偏差を用いることで精度を上げている。
　B (サンプル群が2 つのとき)
　　B 統計量。exp(B)/(1+exp(B)) が、2 群の発現量が異なっている確率。
　　即ち、この値が0 ならば異なっている確率が5 割、正ならばそれより高く、負ならばそれより低い。
　logFC (サンプル群が2 つのとき)
　　2 底の対数をとった発現量の平均値を2 群それぞれでとったとき、その差。
　　この値が1 ならば、発現量の平均値が2 倍違う。
　F (サンプル群が3 つのとき)
　　moderated F-statistics
　　普通のF との違いは上述のt と同様。

　以降は遺伝子アノテーション。
　デフォルトではGene.symbol, Gene.title しか表示されていないが、"select columns" から、Gene ID や Chromosome location などを選択できる。
　結果の表をクリックするとその行の遺伝子の各サンプルでの発現量が棒グラフで見られる。

・Value distributuion
　各サンプルの発現量の分布を箱ひげ図で確認。GEO2R での解析はデータセットブラウザでのものと異なりオリジナルのデータなので、確認は前回より重要。
　なお箱ひげ図のデータは"export" からテキストで見られる。各サンプルについて、
　"lower whisker" 最小値、"lower hinge" 第一四分位点、"median" 中央値、"upper hinge" 第三四分位点、"upper whisker" 最大値、"mean" 平均値、"stdev" 標準偏差、"N" 遺伝子数

・Options
　"Apply adjustment to the P-values."
　多重検定に対する補正。まだ十分理解していないので、後日改めてまとめます。

　"Apply log transformation to the data."
　limma による解析は、発現量が対数に変換されていなければならないが、元データによっては対数になっていないかもしれない。"Auto-detect"(デフォルト) にしておくと対数になっていないものは勝手に検出して対数に直してくれる。確認はサンプルの詳細ページの"Data processing" から。

　"Category of Platform annotation to display on results."
　　遺伝子アノテーション情報の由来を指定する。
　　"Submitter supplied"
　全てのデータで利用できる。フォーマットが統一されておらず、更新もされないかもしれない。
　　"NCBI generated"
　　　全てではないが大半のデータで利用できる。Entrez Gene and UniGene databasesに由来する。定期的に問い合わせて更新するのでほぼ常に最新のものが見られる。

・Profile graph
　遺伝子IDを入力すると、その遺伝子の各サンプルでの発現量を見られる。特に計算を実行するものではなく、単に表示するだけ。遺伝子IDは、View data for (プラットフォームID)からプラットフォームのデータを開いてブラウザの検索機能を使って得る。あまり使いやすくない気がする。

・R script
　実行されたRのスクリプト。