超絶高速ゲノム配列検索ツール GGGenome 調査1

DAVID 動画を上げましたというエントリーがありませんが無事に5月末に上がっております。こちら

さて今回より「超絶高速ゲノム配列検索」ツール GGGenome の紹介動画を担当することになりました。DBCLS の @meso_cacase さんが制作・管理されているツールです。読みは「ゲゲゲノム」です。ファイナルアタックライd

代表的なモデル生物のゲノムまたは転写産物のデータベースを対象に、塩基配列を高速に検索することができます。NCBI Blast では(デフォルトのパラメータだと)検索できないような10塩基くらいの短い配列も問題なく、高速に検索できるのが特長です。パーフェクトマッチで良いならあっという間に結果を表示してくれます。

検索結果へリンクする URL が以下の形式で決められています。検索した配列情報の管理に便利です。

(GGGenome トップからそのまま引用)
http://GGGenome.dbcls.jp/db/k/sequence[.format][.download]
db → hg19, mm10, rn5, galGal4, xenTro3, danRer7, ci2, dm3, ce10, TAIR10, rice, bmor1, refseq, ddbj。省略時は hg19
k → 許容するミスマッチ/ギャップの数。あまり大きいとしぼうする。省略時は 0
sequence → 塩基配列。大文字・小文字は区別しない
format → html, txt, json。省略時は html
download → URLの最後に付加すると検索結果をファイルとしてダウンロードできる
(引用終わり)

検索結果の下部にある Data Export から、結果を tsv または json の形式で表示・ダウンロードできます。

めそさんとも相談しまして、おおまかな動画の流れとして以下のような方針を立てました。

・概要説明
・とりあえず適当な配列を入れて検索(NCBI Blast と速さ比較?)
・tsv でのダウンロード
・検索結果へのリンクの説明
・応用例

応用例としてはめそさんがこちらで紹介されている、Google スプレッドシートを利用したプライマー配列情報の整理法を紹介します。
配列と URL が1対1対応していることを利用し、配列の横のカラムには配列から生成した URL を入れます。そして Google スプレッドシート特有の ImportDATA(URL) 関数を使います。これは引数に指定した csv または tsv 形式のテキストの URL から情報を取得してくれる関数で、GGGenome の URL を format を txt にして指定すれば、配列情報を自動で取ってきてくれます。おおー。これを split 関数で分けて、プライマーの組からプロダクトの長さを計算するなどできます。手動で入力するのはプライマー配列(とその名前)だけで済むことになります。データベース側に変更があってもその都度取得して反映してくれるのもありがたいところです。

ImportDATA 関数は初めて知りましたが、色んなところで使えそうですね。
完全に脇道ですが、気になったので Google スプレッドシート特有の関数を少し調べてみました。https://support.google.com/drive/table/25273?hl=jaGoogle 型の関数にいろいろあります。html から表やリストを取ってくる ImportHtml とかも面白いですね。
GoogleTournament 「NCAA全米大学体育協会)第一部主催の男子/女子バスケットボール チャンピオンシップの開催中、試合のデータを返します。」って誰が使うんだよ。

早速ですが次回からもう撮れるかと思います。応用例として他になんか思いついたら付け足します。