NCBI GEOの使い方5 GEO2Rの使い方 調査2~4

デザインを変えてみました。やっぱピンクじゃないと。

調査3 回分のまとめです。まだ十分ではありませんが、まとめられるところまで。

GEO2R の各タブについて。
・GEO2R
 解析結果を表示する。以下各カラムについて。

 adj.P.Val
  補正後のP 値。補正については後で。
 P.Value
  生のP 値。
 t (サンプル群が2 つのとき)
  t としか書いていないけれども実は普通のt とは少し違う。moderated t-statistics(調整t 統計量) と呼ばれるもの。普通のt との違いは標準偏差
  まず普通の標準偏差を全ての遺伝子について求める。これらからpooled standard deviation(日本語は「合併標準偏差」らしい)s_0を求める。
  s_0^2 = \sum(s_i^2(n_i-1))) / \sum(n_i-1)
  これを用いて、
  \tilde{s}_i^2 = (s_i^2*d_i + s_0^2*d_0) / (d_i+d_0) (d は自由度)
  とする。
  全遺伝子の標準偏差を用いることで精度を上げている。
 B (サンプル群が2 つのとき)
  B 統計量。exp(B)/(1+exp(B)) が、2 群の発現量が異なっている確率。
  即ち、この値が0 ならば異なっている確率が5 割、正ならばそれより高く、負ならばそれより低い。
 logFC (サンプル群が2 つのとき)
  2 底の対数をとった発現量の平均値を2 群それぞれでとったとき、その差。
  この値が1 ならば、発現量の平均値が2 倍違う。
 F (サンプル群が3 つのとき)
  moderated F-statistics
  普通のF との違いは上述のt と同様。

 以降は遺伝子アノテーション
 デフォルトではGene.symbol, Gene.title しか表示されていないが、"select columns" から、Gene ID や Chromosome location などを選択できる。
 結果の表をクリックするとその行の遺伝子の各サンプルでの発現量が棒グラフで見られる。

Value distributuion
 各サンプルの発現量の分布を箱ひげ図で確認。GEO2R での解析はデータセットブラウザでのものと異なりオリジナルのデータなので、確認は前回より重要。
 なお箱ひげ図のデータは"export" からテキストで見られる。各サンプルについて、
 "lower whisker" 最小値、"lower hinge" 第一四分位点、"median" 中央値、"upper hinge" 第三四分位点、"upper whisker" 最大値、"mean" 平均値、"stdev" 標準偏差、"N" 遺伝子数

・Options
 "Apply adjustment to the P-values."
 多重検定に対する補正。まだ十分理解していないので、後日改めてまとめます。

 "Apply log transformation to the data."
 limma による解析は、発現量が対数に変換されていなければならないが、元データによっては対数になっていないかもしれない。"Auto-detect"(デフォルト) にしておくと対数になっていないものは勝手に検出して対数に直してくれる。確認はサンプルの詳細ページの"Data processing" から。

 "Category of Platform annotation to display on results."
  遺伝子アノテーション情報の由来を指定する。
  "Submitter supplied"
 全てのデータで利用できる。フォーマットが統一されておらず、更新もされないかもしれない。
  "NCBI generated"
   全てではないが大半のデータで利用できる。Entrez Gene and UniGene databasesに由来する。定期的に問い合わせて更新するのでほぼ常に最新のものが見られる。

・Profile graph
 遺伝子IDを入力すると、その遺伝子の各サンプルでの発現量を見られる。特に計算を実行するものではなく、単に表示するだけ。遺伝子IDは、View data for (プラットフォームID)からプラットフォームのデータを開いてブラウザの検索機能を使って得る。あまり使いやすくない気がする。

・R script
 実行されたRのスクリプト

NCBI GEOの使い方5 GEO2Rの使い方 調査1

本日の放牧で、データセットブラウザの使い方2の動画が完成、アップまで完了いたしました。こちら

引き続き、GEO2Rの調査を開始しました。まだ大雑把ですが調べた内容の簡単なまとめです。


発現量に変化のある遺伝子を検索できる。RパッケージのGEOqueryとlimma(Linear Models for Microarray Analysis)を使用している。
実験の詳細ページの"Analyze with GEO2R"から飛ぶか、直接GEO2Rにアクセスしてアクセッション番号を入力する。サンプル一覧が表示されるので、比較する2群を設定して"Top 250"をクリック。デフォルトではt検定のP値の小さい順に250個の遺伝子が表示される。
実行されたRのスクリプトも表示してくれるが、基本勝手にやってくれるので、Rが入っていなくてもRを知らなくても大丈夫。
前作で紹介したデータセットブラウザから使えるツールとの違いは
・データセットブラウザでは、投稿されたデータをGEOがまとめ直したものが対象。投稿されたてのデータは解析できない
・GEO2Rでは投稿されたオリジナルのデータが対象。そのぶん、正確性に欠けるデータも対象にできてしまうので注意が必要。


統計関連の用語でよく知らないものが見られるのでその辺りも含めてこれから更なる調査を進めます。

NCBI GEOの使い方4 データセットブラウザの使い方2 動画編集3

ダウンロードデータの説明のほか、一部のちょっとした撮り直しを行い、動画が概ね完成いたしました。次回細かい修正を行い、アップすることになると思います。

さて、GEOの動画は旧来、私がこれまで作り直してきた4作とデータ投稿編、でした。そのためこの動画を作り終えたら私のGEO動画作成は終わりかと思っていたのですが、最近GEO2Rというものができたそうで、それの動画作成を仰せつかりました。詳細はこれから調べますが、要するにRに基づいてGEOのデータを解析できるツールだそうです。
About GEO2Rには"allows users to perform R statistical analysis without command line expertise"とありますが、動画を作る以上最低限のRの知識はあるべきですね。Rは今までほとんど使ったことがないので、これを好機と思って勉強いたします。

NCBI GEOの使い方4 データセットブラウザの使い方2 動画編集2

2月前半はテストやら何やらで忙しかったので、今日が2月最初でございました。

前回分を書いてないですね。前回は動画のアップを行ったのですが、音をつけるのにいろいろとてこずったり、tDiaryの編集中にchromeが落っこちるというハプニングに見舞われたりで、動画編集はほとんど進まなかったです。

で、今日ですが、Data Analysis Toolsの説明は終わり、あとはダウンロードデータの説明のみというところまで編集が進みました。次回には完成するかしら。

将来動画の作り直しをする際に参考になるよう、司令部のチケットにこちらへのリンクを貼っておくようにという指示を受けました。というわけで、改めてですがこちらもちゃんと書かねばならんですね。

NCBI GEOの使い方4 データセットブラウザの使い方2 動画編集1

今日は編集長が「一身上の都合により」お休みだったので、動画のアップは見送り、次の動画の編集を行いました。Find genesのところまで終わったくらいです。

今日は職員さんのお誕生日で、牧場の皆様がケーキを大変感動しながら召し上がっていたのですが、甘いものが苦手な私は感動を共有できず残念でございました。

NCBI GEOの使い方3 データセットブラウザの使い方 動画編集5

動画できました。仕上げ作業に結構時間がかかってしまった(「最終確認」なるものを4回くらい行いましたw)のでアップロードは次回行います。
説明で「Dicer 1 欠乏」としていたところは、ここではDicer 1がノックアウトされているので「Dicer 1 欠損」のほうが適切、という指摘を編集長にいただき、訂正しました。

詳細はまだ聞いていませんが統合TVに音をつけるそうですね。最初はとりあえず音楽だけとのことでしたが、以降はどうなるのかしら。

NCBI GEOの使い方3 データセットブラウザの使い方 動画編集2~4

3回分です。

動画編集作業が進行中です。前回で1本目のほうがほぼ完成しました。だいたい8分くらいです。やや長いのでダウンロードデータの説明は2本目に回すことにしました。
つまり1本目ではデータセットブラウザまでのたどり着き方と基本的な検索機能及びヒートマップツールの説明、2本目では他のツールとDLデータの説明ということになっています。

次回は1本目の仕上げです。アップまでできると思います。