clustalwを利用した系統樹の作成方法
近隣結合法による系統樹作成が可能な "clustalw" の使い方メモ
"clustalw" は昔からよく利用されてきた配列アライメント及び系統樹作成プログラムで、単純なアルゴリズムである近隣結合法で系統樹を構築するため、計算量が少ないという特徴をもつ。配列アライメントも可能なプログラムであるが、"muscle" や "mafft" 等の後発の配列アライメントプログラムと比較すると精度が悪いため、"clustalw" でアライメントを行うことは現在ではあまりない。
また最尤法の "RAxML" やベイズ法の "MrBayes" 等の統計的解析を組み込んだ計算量の多い系統樹作成プログラムと比較すると結果の信頼性は低い。
系統樹作成の基本的な手順("muscle" と "clustalw" を使用)
Ensemblより取得したオーソログのグロビン遺伝子をデータ例とする( "globin.fa" )。
>Chicken EILPRGCPCLLASRALPVAKHCFAYLTVSIEPLPPVVVGDAVTLKCNFKTDGKMREIVWYRVTDGGTIKQKIFTFDAMFSTNFSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSISVIAADTPAPFSRYQAQNFTLVCVVSGGKPAPLVYFKRDGEPIEATPLPEPPAATGNWAPRNLLHRDLDDTKLPQLLAEGEMGGGPSNTAEPPRGLAAERGPTTEAIPETVVSREFPRWVHVAEPIYYFRHTHVPISDGTVEARATLTWTLNPQIDNEALFSCEVKHPALSMPMQSEVTLVAPKGPKIIMTPMRARVGDTVRILVQGFQNEVFPEPLFTWTRVGSRLLDGSAEHAGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSNGSVTSHCSFRLVLALTLTVILELT >Mouse MQAAPSLRRASCLLLAAILDLARGYLTVNIEPLPPVVAGDAVTLKCNFKTDGRMREIVWYRVTDGGTIKQKIFTFDAMFSTNYSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSIEVVAADSPAPFSRYQAQNFTLVCIVSGGKPAPMVYFKRDGEPIDAVPLTELPAASSGPVQDSRPFRSLLHRDVDDTKMQKSLSLLDTEYRAGRPYTERPARSLTQDPSLFVQPTTENIPETVVSREFPRWVHSAEPVYFLRHSRTPGSDGTVEVRALLTWTLNPQIDNEALFSCEVKHPALSMPMQAEVTLVAPKGPKIMMTPSRARVGDTVRILVHGFQNEVFPEPMFTWTRVGSRLLDGSAEFDGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSRGSASGPAGVRLTLVLALTVILELT >Orangutan MREIVWYRVTDGGTIKQKIFTFDAMFSTNYSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSIEVVTADTPAPFSRYQAQNFTLVCIVSGGKPAPMVYFKRDGEPIDAVPLSEPPAASSGPLQDSRPFRSLLHRDLDDTKMQKSLSLLDAENRGGRPYTERPSHGLTPDPNILLQPTTENIPETVVSREFPRWVHSAEPTYFLRHSRTPSSDGTVEVRALLTWTLNPQIDNEALFSCEVKHPALSMPMQAEVTLVAPKGPKIVMTPSRARVGDTVRILVHGFQNEVFPEPMFTWTRVGSRLLDGSAEFDGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSNGSIGPTGAWLTLVLALTVILELT >Chimpanzee MRTAPSLRRCVCLLLAAILDLARGYLTVNIEPLPPVVAGDAVTLKCNFKTDGRMREIVWYRVTDGGTIKQKIFTFDAMFSTNYSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSIEVVAADTPAPFSRYQAQNFTLVCIVSGGKPAPMVYFKRDGEPIDAVPLSEPPAASSGPLQDSRPFGSLLHRDLDDTKMQKSLSLLDAENRGGRPYTERPSRGLTPDPNILLQPTTENIPETVVSREFPRWVHSAEPTYFLRHSRTPSSDGTVEVRALLTWTLNPQIDNEALFSCEVKHPALSMPMQAEVTLVAPKGPKIVMTPSRARVGDTVRILVHGFQNEVFPEPMFTWTRVGSRLLDGSAEFDGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSNGSIGPTGARLTLVLALTVILELT >Human MRTAPSLRRCVCLLLAAILDLARGYLTVNIEPLPPVVAGDAVTLKCNFKTDGRMREIVWYRVTDGGTIKQKIFTFDAMFSTNYSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSIEVVAADTPAPFSRYQAQNFTLVCIVSGGKPAPMVYFKRDGEPIDAVPLSEPPAASSGPLQDSRPFRSLLHRDLDDTKMQKSLSLLDAENRGGRPYTERPSRGLTPDPNILLQPTTENIPETVVSREFPRWVHSAEPTYFLRHSRTPSSDGTVEVRALLTWTLNPQIDNEALFSCEVKHPALSMPMQAEVTLVAPKGPKIVMTPSRARVGDTVRILVHGFQNEVFPEPMFTWTRVGSRLLDGSAEFDGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSNGSIGPTGARLTLVLALTVILELT
- "muscle" による配列アライメント
- "clustalw" による系統樹作成
$ muscle -in globin.fa -out globin.aln
上記コマンドで "muscle" によるアライメントが実行され、下記のようなアライメント結果が出力される( "globin.aln" )。
>Chicken -EILP--RGCPCLLASRALPVAKHCFAYLTVSIEPLPPVVVGDAVTLKCNFKTDGKMREIVWYRVTDGGTIKQKIFTFDAMFSTNFSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSISVIAADTPAPFSRYQAQNFTLVCVVSGGKPAPLVYFKRDGEPIEATPLPEPPAATGNWAP-----RNLLHRDLDDTKLPQLLA--EGEMGGGPSNTAEPPRGLAAERG----PTTEAIPETVVSREFPRWVHVAEPIYYFRHTHVPISDGTVEARATLTWTLNPQIDNEALFSCEVKHPALSMPMQSEVTLVAPKGPKIIMTPMRARVGDTVRILVQGFQNEVFPEPLFTWTRVGSRLLDGSAEHAGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSNGSVTSHCSFRLVLALTLTVILELT >Mouse MQAAPSLRRASCLLLAAILDLAR---GYLTVNIEPLPPVVAGDAVTLKCNFKTDGRMREIVWYRVTDGGTIKQKIFTFDAMFSTNYSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSIEVVAADSPAPFSRYQAQNFTLVCIVSGGKPAPMVYFKRDGEPIDAVPLTELPAASSGPVQDSRPFRSLLHRDVDDTKMQKSLSLLDTEYRAGRPYTERPARSLTQDPSLFVQPTTENIPETVVSREFPRWVHSAEPVYFLRHSRTPGSDGTVEVRALLTWTLNPQIDNEALFSCEVKHPALSMPMQAEVTLVAPKGPKIMMTPSRARVGDTVRILVHGFQNEVFPEPMFTWTRVGSRLLDGSAEFDGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSRGSASGPAGVRLTLVLALTVILELT >Orangutan --------------------------------------------------------MREIVWYRVTDGGTIKQKIFTFDAMFSTNYSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSIEVVTADTPAPFSRYQAQNFTLVCIVSGGKPAPMVYFKRDGEPIDAVPLSEPPAASSGPLQDSRPFRSLLHRDLDDTKMQKSLSLLDAENRGGRPYTERPSHGLTPDPNILLQPTTENIPETVVSREFPRWVHSAEPTYFLRHSRTPSSDGTVEVRALLTWTLNPQIDNEALFSCEVKHPALSMPMQAEVTLVAPKGPKIVMTPSRARVGDTVRILVHGFQNEVFPEPMFTWTRVGSRLLDGSAEFDGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSNGSI-GPTGAWLTLVLALTVILELT >Chimpanzee MRTAPSLRRCVCLLLAAILDLAR---GYLTVNIEPLPPVVAGDAVTLKCNFKTDGRMREIVWYRVTDGGTIKQKIFTFDAMFSTNYSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSIEVVAADTPAPFSRYQAQNFTLVCIVSGGKPAPMVYFKRDGEPIDAVPLSEPPAASSGPLQDSRPFGSLLHRDLDDTKMQKSLSLLDAENRGGRPYTERPSRGLTPDPNILLQPTTENIPETVVSREFPRWVHSAEPTYFLRHSRTPSSDGTVEVRALLTWTLNPQIDNEALFSCEVKHPALSMPMQAEVTLVAPKGPKIVMTPSRARVGDTVRILVHGFQNEVFPEPMFTWTRVGSRLLDGSAEFDGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSNGSI-GPTGARLTLVLALTVILELT >Human MRTAPSLRRCVCLLLAAILDLAR---GYLTVNIEPLPPVVAGDAVTLKCNFKTDGRMREIVWYRVTDGGTIKQKIFTFDAMFSTNYSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSIEVVAADTPAPFSRYQAQNFTLVCIVSGGKPAPMVYFKRDGEPIDAVPLSEPPAASSGPLQDSRPFRSLLHRDLDDTKMQKSLSLLDAENRGGRPYTERPSRGLTPDPNILLQPTTENIPETVVSREFPRWVHSAEPTYFLRHSRTPSSDGTVEVRALLTWTLNPQIDNEALFSCEVKHPALSMPMQAEVTLVAPKGPKIVMTPSRARVGDTVRILVHGFQNEVFPEPMFTWTRVGSRLLDGSAEFDGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSNGSI-GPTGARLTLVLALTVILELT
$ clustalw -infile=globin.aln -bootstrap=1000
上記コマンドで "clustalw" が実行され、入力アライメント配列FASTAファイルから各配列間での距離行列を算出し、近隣結合法により系統樹を作成する。また "-bootstrap" オプションでブートストラップ検定も指定した回数行われるようになり、このとき系統樹ファイルの拡張子は[.phb]となる( "globin.phb" )。
系統樹ファイルのViewerであるNJplotで表示した "globin.phb"