バイオインフォマティクス初心者の日常

バイオインフォマティクス関連の研究・勉強などなど

clustalwを利用した系統樹の作成方法

近隣結合法による系統樹作成が可能な "clustalw" の使い方メモ

"clustalw" は昔からよく利用されてきた配列アライメント及び系統樹作成プログラムで、単純なアルゴリズムである近隣結合法で系統樹を構築するため、計算量が少ないという特徴をもつ。配列アライメントも可能なプログラムであるが、"muscle" や "mafft" 等の後発の配列アライメントプログラムと比較すると精度が悪いため、"clustalw" でアライメントを行うことは現在ではあまりない。
また最尤法の "RAxML" やベイズ法の "MrBayes" 等の統計的解析を組み込んだ計算量の多い系統樹作成プログラムと比較すると結果の信頼性は低い。

系統樹作成の基本的な手順("muscle" と "clustalw" を使用)
Ensemblより取得したオーソログのグロビン遺伝子をデータ例とする( "globin.fa" )。

>Chicken
EILPRGCPCLLASRALPVAKHCFAYLTVSIEPLPPVVVGDAVTLKCNFKTDGKMREIVWYRVTDGGTIKQKIFTFDAMFSTNFSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSISVIAADTPAPFSRYQAQNFTLVCVVSGGKPAPLVYFKRDGEPIEATPLPEPPAATGNWAPRNLLHRDLDDTKLPQLLAEGEMGGGPSNTAEPPRGLAAERGPTTEAIPETVVSREFPRWVHVAEPIYYFRHTHVPISDGTVEARATLTWTLNPQIDNEALFSCEVKHPALSMPMQSEVTLVAPKGPKIIMTPMRARVGDTVRILVQGFQNEVFPEPLFTWTRVGSRLLDGSAEHAGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSNGSVTSHCSFRLVLALTLTVILELT 
>Mouse
MQAAPSLRRASCLLLAAILDLARGYLTVNIEPLPPVVAGDAVTLKCNFKTDGRMREIVWYRVTDGGTIKQKIFTFDAMFSTNYSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSIEVVAADSPAPFSRYQAQNFTLVCIVSGGKPAPMVYFKRDGEPIDAVPLTELPAASSGPVQDSRPFRSLLHRDVDDTKMQKSLSLLDTEYRAGRPYTERPARSLTQDPSLFVQPTTENIPETVVSREFPRWVHSAEPVYFLRHSRTPGSDGTVEVRALLTWTLNPQIDNEALFSCEVKHPALSMPMQAEVTLVAPKGPKIMMTPSRARVGDTVRILVHGFQNEVFPEPMFTWTRVGSRLLDGSAEFDGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSRGSASGPAGVRLTLVLALTVILELT 
>Orangutan
MREIVWYRVTDGGTIKQKIFTFDAMFSTNYSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSIEVVTADTPAPFSRYQAQNFTLVCIVSGGKPAPMVYFKRDGEPIDAVPLSEPPAASSGPLQDSRPFRSLLHRDLDDTKMQKSLSLLDAENRGGRPYTERPSHGLTPDPNILLQPTTENIPETVVSREFPRWVHSAEPTYFLRHSRTPSSDGTVEVRALLTWTLNPQIDNEALFSCEVKHPALSMPMQAEVTLVAPKGPKIVMTPSRARVGDTVRILVHGFQNEVFPEPMFTWTRVGSRLLDGSAEFDGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSNGSIGPTGAWLTLVLALTVILELT 
>Chimpanzee
MRTAPSLRRCVCLLLAAILDLARGYLTVNIEPLPPVVAGDAVTLKCNFKTDGRMREIVWYRVTDGGTIKQKIFTFDAMFSTNYSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSIEVVAADTPAPFSRYQAQNFTLVCIVSGGKPAPMVYFKRDGEPIDAVPLSEPPAASSGPLQDSRPFGSLLHRDLDDTKMQKSLSLLDAENRGGRPYTERPSRGLTPDPNILLQPTTENIPETVVSREFPRWVHSAEPTYFLRHSRTPSSDGTVEVRALLTWTLNPQIDNEALFSCEVKHPALSMPMQAEVTLVAPKGPKIVMTPSRARVGDTVRILVHGFQNEVFPEPMFTWTRVGSRLLDGSAEFDGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSNGSIGPTGARLTLVLALTVILELT 
>Human
MRTAPSLRRCVCLLLAAILDLARGYLTVNIEPLPPVVAGDAVTLKCNFKTDGRMREIVWYRVTDGGTIKQKIFTFDAMFSTNYSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSIEVVAADTPAPFSRYQAQNFTLVCIVSGGKPAPMVYFKRDGEPIDAVPLSEPPAASSGPLQDSRPFRSLLHRDLDDTKMQKSLSLLDAENRGGRPYTERPSRGLTPDPNILLQPTTENIPETVVSREFPRWVHSAEPTYFLRHSRTPSSDGTVEVRALLTWTLNPQIDNEALFSCEVKHPALSMPMQAEVTLVAPKGPKIVMTPSRARVGDTVRILVHGFQNEVFPEPMFTWTRVGSRLLDGSAEFDGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSNGSIGPTGARLTLVLALTVILELT 


  1. "muscle" による配列アライメント
  2. $ muscle -in globin.fa -out globin.aln

    上記コマンドで "muscle" によるアライメントが実行され、下記のようなアライメント結果が出力される( "globin.aln" )。

    >Chicken
    -EILP--RGCPCLLASRALPVAKHCFAYLTVSIEPLPPVVVGDAVTLKCNFKTDGKMREIVWYRVTDGGTIKQKIFTFDAMFSTNFSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSISVIAADTPAPFSRYQAQNFTLVCVVSGGKPAPLVYFKRDGEPIEATPLPEPPAATGNWAP-----RNLLHRDLDDTKLPQLLA--EGEMGGGPSNTAEPPRGLAAERG----PTTEAIPETVVSREFPRWVHVAEPIYYFRHTHVPISDGTVEARATLTWTLNPQIDNEALFSCEVKHPALSMPMQSEVTLVAPKGPKIIMTPMRARVGDTVRILVQGFQNEVFPEPLFTWTRVGSRLLDGSAEHAGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSNGSVTSHCSFRLVLALTLTVILELT 
    >Mouse
    MQAAPSLRRASCLLLAAILDLAR---GYLTVNIEPLPPVVAGDAVTLKCNFKTDGRMREIVWYRVTDGGTIKQKIFTFDAMFSTNYSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSIEVVAADSPAPFSRYQAQNFTLVCIVSGGKPAPMVYFKRDGEPIDAVPLTELPAASSGPVQDSRPFRSLLHRDVDDTKMQKSLSLLDTEYRAGRPYTERPARSLTQDPSLFVQPTTENIPETVVSREFPRWVHSAEPVYFLRHSRTPGSDGTVEVRALLTWTLNPQIDNEALFSCEVKHPALSMPMQAEVTLVAPKGPKIMMTPSRARVGDTVRILVHGFQNEVFPEPMFTWTRVGSRLLDGSAEFDGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSRGSASGPAGVRLTLVLALTVILELT 
    >Orangutan
    --------------------------------------------------------MREIVWYRVTDGGTIKQKIFTFDAMFSTNYSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSIEVVTADTPAPFSRYQAQNFTLVCIVSGGKPAPMVYFKRDGEPIDAVPLSEPPAASSGPLQDSRPFRSLLHRDLDDTKMQKSLSLLDAENRGGRPYTERPSHGLTPDPNILLQPTTENIPETVVSREFPRWVHSAEPTYFLRHSRTPSSDGTVEVRALLTWTLNPQIDNEALFSCEVKHPALSMPMQAEVTLVAPKGPKIVMTPSRARVGDTVRILVHGFQNEVFPEPMFTWTRVGSRLLDGSAEFDGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSNGSI-GPTGAWLTLVLALTVILELT 
    >Chimpanzee
    MRTAPSLRRCVCLLLAAILDLAR---GYLTVNIEPLPPVVAGDAVTLKCNFKTDGRMREIVWYRVTDGGTIKQKIFTFDAMFSTNYSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSIEVVAADTPAPFSRYQAQNFTLVCIVSGGKPAPMVYFKRDGEPIDAVPLSEPPAASSGPLQDSRPFGSLLHRDLDDTKMQKSLSLLDAENRGGRPYTERPSRGLTPDPNILLQPTTENIPETVVSREFPRWVHSAEPTYFLRHSRTPSSDGTVEVRALLTWTLNPQIDNEALFSCEVKHPALSMPMQAEVTLVAPKGPKIVMTPSRARVGDTVRILVHGFQNEVFPEPMFTWTRVGSRLLDGSAEFDGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSNGSI-GPTGARLTLVLALTVILELT 
    >Human
    MRTAPSLRRCVCLLLAAILDLAR---GYLTVNIEPLPPVVAGDAVTLKCNFKTDGRMREIVWYRVTDGGTIKQKIFTFDAMFSTNYSHMENYRKREDLVYQSTVRLPEVRISDNGPYECHVGIYDRATREKVVLASGNIFLNVMAPPTSIEVVAADTPAPFSRYQAQNFTLVCIVSGGKPAPMVYFKRDGEPIDAVPLSEPPAASSGPLQDSRPFRSLLHRDLDDTKMQKSLSLLDAENRGGRPYTERPSRGLTPDPNILLQPTTENIPETVVSREFPRWVHSAEPTYFLRHSRTPSSDGTVEVRALLTWTLNPQIDNEALFSCEVKHPALSMPMQAEVTLVAPKGPKIVMTPSRARVGDTVRILVHGFQNEVFPEPMFTWTRVGSRLLDGSAEFDGKELVLERVPAELNGSMYRCTAQNPLGSTDTHTRLIVFENPNIPRGTEDSNGSI-GPTGARLTLVLALTVILELT 

  3. "clustalw" による系統樹作成
  4. $ clustalw -infile=globin.aln -bootstrap=1000

    上記コマンドで "clustalw" が実行され、入力アライメント配列FASTAファイルから各配列間での距離行列を算出し、近隣結合法により系統樹を作成する。また "-bootstrap" オプションでブートストラップ検定も指定した回数行われるようになり、このとき系統樹ファイルの拡張子は[.phb]となる( "globin.phb" )。

    系統樹ファイルのViewerであるNJplotで表示した "globin.phb"
    f:id:sy-41211:20151215034551p:plain