NCBI GEOの使い方3 データセットブラウザの使い方 下調べ2

今日は主に、データセットブラウザのクラスタ解析ツールについて調べました。

クラスタリングアルゴリズムは、以下の3つから選択できます。これらはいずれも、まず各遺伝子を自身だけからなるクラスタと見なし、以後、クラスタ間の距離が近い、すなわちよく似ているものを順に一つのクラスタとしてまとめる、ボトムアップ型のクラスタリング法です。異なるのはクラスタ間の距離の定義です。

・UPGMA(Unweighted Pair Group Method with Arithmetic mean, 非加重結合法)
 クラスタ間の距離は、各クラスタの全ての点同士の距離を取りその平均とする。
・single linkage(nearest neighbor)
 クラスタ間の距離は、各クラスタの全ての点同士の距離を取りその最小値とする。
・complete linkage(farthest neighbor)
 クラスタ間の距離は、各クラスタの全ての点同士の距離を取りその最大値とする。

点同士の距離も定義する必要があります。データセットブラウザでは以下の3つから選択できます。

・Pearson's correlation coefficient
 一般的な相関係数。すなわちデータ列(x,y)={(xi,yi)}について(xとyの共分散)/(xの標準偏差)(yの標準偏差) 距離の定義とするときはこれを1から引いた値を用いる。
・uncentered correlation
 普通の相関係数の定義の標準偏差や共分散において、平均値の部分を0で置き換えたもの。距離の定義とするときはこれを1から引いた値を用いる。
・Euclidian
 日常使う意味での距離の拡張。(xi-yi)^2 の和をとり平方根をとったもの

距離の色々についてはこちらが参考になりました。http://gedas.bizhat.com/dist.htm
uncentered correlationは私には馴染みのないものでした。通常の相関係数同様xiとyiの比が正で一定に近いほど大きい値をとります。通常の相関係数との違いについてはちゃんと考察して後でまとめようと思います。とにかく、これらを距離の定義とすると、遺伝子クラスタリングの場合では、サンプル間での発現量の(絶対量はともかく)変動の仕方が似ているものは近いと判断されることになります。


一例。グラフ上ではやや離れているFam168aとSsr4は、サンプル間での変動の仕方が似ているので近いとされる