配列保存領域の抽出プログラムGblocksの使い方
マルチプルアライメントされた配列においてオプション設定閾値にしたがって、保存されていると判定された領域のみを取り出すプログラム "Gblocks" の使い方とオプション設定に関するメモ
Gblocksは、配列置換が飽和しているような領域やインデルが入った領域を手軽に取り除けるため、系統解析を行う際によく使われている。ただし、デフォルト設定のままではある程度保存領域も取り除いてしまうこともあるので、用途によってオプション設定には気を付ける必要がある。
Gblocksは下記サイトからダウンロードが可能
http://molevol.cmima.csic.es/castresana/Gblocks.html
解凍したダウンロードファイル内に、Gblocksプログラムが入っている。
Gblocksの使い方
$ Gblocks [マルチプルアライメント配列ファイル] [各種オプション設定] ※ マルチプルアライメント配列ファイルはFASTA形式かPIR形式のいずれかが利用可能
上記コマンドの実行で、保存領域のみを抽出したファイル(*-gb)
ウェブブラウザで閲覧可能な、保存領域を表示したファイル(*-gb.htm)
がそれぞれ作成される。
保存領域を表示したファイル(*-gb.htm)の内容の例
黒で表示されている部分は、保存されている座位
青で表示されている領域は、配列保存領域をそれぞれ示す。
保存領域のみを抽出したファイル(*-gb)には、青で表示されている領域のみが抽出される。
Gblocksのオプション設定
- 入力ファイル中の配列タイプ指定(-t= p or n or c) 必須!!
p => Protein(タンパク質)
n => Nucleotide(塩基)
c => Codon(コドン)
上記の3タイプのいずれかを選択する必要がある。 - 保存座位判定の閾値(-b1= N1 [デフォルト: 配列数 / 2 + 1] )
各比較座位における保存座位判定の閾値設定
デフォルト設定で、配列数が10の場合は、比較座位のうちの6個以上が同一の文字であれば、保存されている座位と判定される。 - 高度保存座位判定の閾値(-b2= N2 [デフォルト: 配列数 × 0.85] )
保存領域判定のときの両端座位における高度保存座位判定の閾値設定
Gblocksでは保存領域の判定の際に、高度に保存されている座位の検索を行い、高度保存座位に挟まれており、かつ他の条件設定も満たすものを保存領域とみなす。
デフォルト設定で、配列数が10の場合は、両端比較座位のうちの8個以上が保存されていないと保存領域と判定されない(※デフォルト設定の計算式では、小数点は切り捨てる)。個人的には、このデフォルト設定のままでは、ある程度保存されている領域の取りこぼしが出るように感じるので、解析の種類によっては、N2の値をN1のデフォルト設定の値に合わせるなどの設定変更を行うときもあります。
- 保存領域内の連続した非保存座位長の最大閾値(-b3= N3 [デフォルト: 8] )
保存領域内に許容する連続した非保存座位の長さの閾値 - 保存領域の最小長閾値(-b4= N4 [デフォルト: 10] )
保存領域の最小の長さの設定で、長さ N4 以下の保存領域を許容しない。 - 保存領域内のギャップ設定(-b5= n or h or a [デフォルト : n] )
n => 比較座位に一つでもギャップがあれば保存座位と判定しない(None)
h => ギャップが配列数の半分以上ならば、保存座位と判定しない(Half)
a => ギャップ情報は保存座位判定に使用しない(All)
上記のオプション設定を行うことで、自分の目的とする配列保存領域の抽出が可能となる。
オプション設定をする場合には、Gblocksは以下のようなコマンドで実行する。
$ Gblocks [マルチプルアライメント配列ファイル] -t=p -b1=N1 -b2=N2 -b3=N3 -b4=N4 -b5=n
参考サイト
Gblocks Documentation
参考文献
Castresana, J. (2000). Selection of conserved blocks from multiple alignments for their use in phylogenetic analysis. Molecular Biology and Evolution 17, 540-552.