超絶高速ゲノム配列検索ツール GGGenome 編集1

GGGenome 動画編集開始いたしました。
本日は Camtasia が2落ち。2回めはそこそこ作業が失われました。うんざりしますね。
以下現行の脚本を載せておきます。



GGGenome(ゲゲゲノム) は、DBCLS で提供されているツールの一つで、代表的なモデル生物のゲノムまたは転写産物のデータベースを対象に、塩基配列を高速に検索することができます。

早速使ってみましょう。検索窓に配列を入力します。
検索対象を指定します。今回はヒトゲノムで検索します。
ミスマッチやギャップを許容する場合はこちらにいくつまで許容するかを入力してください。
検索!
結果があっという間に表示されました。
Data Export から、結果を tsv または json の形式で表示・ダウンロードできます。

(ここから保留)
同じ配列を、NCBI Blast のデフォルトの設定で検索してみましょう。
待たされたあげく、短すぎて特異性を確保できなかったと表示されました。パラメータをいじらないと表示できません。
このように、GGGenome では短い配列も高速に検索できるのが特長です。
(ここまで保留)

なお、ゲノム配列のほか、転写産物のデータベースにも対応しています。RefSeq Complete RNA を選択。


GGGenome では、検索結果へリンクする URL がこのような形式で決められています。
検索した配列情報の管理に便利です。

これを利用した応用例として、Google スプレッドシートを用いたプライマー配列情報の整理法を紹介します。
まずプライマーの名前と配列を入力します。
GGGenome では検索クエリと URL が1対1対応しているので、配列から URL を生成できます。
配列の隣のカラムに、=concatenate("http://GGGenome.dbcls.jp/rice/", C2, ".txt") と入力します。
配列を GGGenome でイネゲノムを対象にして検索した結果へのリンクアドレスが生成されました。
次のカラムでは、Google スプレッドシート 特有の関数である ImportData関数を利用します。
引数に指定したテキストの URL から情報を取得してくれる関数です。GGGenome の URL を指定すると…
配列情報が自動で取得されました。
split 関数を利用してこれを分割します。
プライマーの組の座標からプロダクトの長さを計算するなどできます。
手動で入力するのはプライマー配列(とその名前)だけで済むことになります。
配列情報はその都度取得されるので、データベース側に変更があっても自動で反映されるのもポイントです。