NCBI GEOの使い方3 データセットブラウザの使い方 下調べ3

前回のやり残し。及び訂正。
uncentered correlation coefficientですが、ピアソンの相関係数と違って、yi=axi+b (a>0, b≠0)の形では1になりません。b=0のときのみ1です。
変動の仕方しか見ないピアソンの相関係数、そして変動の仕方は見ないユークリッド距離、という2つの基準の折衷案となっているようです。

さて、前回は階層的クラスタリングについて調べましたが、GEOのHeatmapツールでは他に分割最適化クラスタリングの手法としてk-means法とk-medians法が使用出来ます。クラスタの代表点というものを考え、それへの近さから各点をクラスタに分類していく方法です。詳しい手順は

(初期化)全ての点の中からk個を選び、最初の代表点とする。
→各データはそれぞれ代表点との距離を計算し、最も近い代表点のクラスタに入れる。
→代表点をクラスタに属する点の重心で更新し、再度各点と代表点との距離を計算、最も近い代表点のクラスタに入れる。
これを繰り返し、クラスタが変化しなくなったら終わり。

上はk-means法です。重心(平均)を取るところをメディアンにしたものがk-medians法です。
最初の点のとり方に結果がかなり依存します。同じ条件でも複数回実行すれば別の結果が得られることになります。

その他にも、染色体上の位置で遺伝子を配置することもできます。

さて、動画ですが、Heatmapは他のツールより説明すべきことが多いのではないかと思ったので、1本目の動画で検索の仕方やダウンロードについてなどの基本的な使い方とHeatmapについてを、2本目でその他のツールについてを説明するという構成を考えています。詳細はまだまだこれから煮詰めます。