HMMERを使ったPfamデータベースへのドメイン検索 - バイオインフォマティクス初心者の日常

タンパク質ドメイン検索に基づいた機能推定のためのプログラムのお話

機能未知のタンパク質の機能を推定する際には、タンパク質の最小機能単位であるドメインの構成を調べることで、既知ドメイン情報が検出された場合に、機能推定が可能になります。

タンパク質のドメイン検索にはPSSM(Position Specific Scoring Model)を利用したRPSBLAST、あるいはHMM(Hidden Marcov Model)を利用したHMMERプログラムがよく使われている。
隠れマルコフモデル(HMM)に関して自分はよく理解していませんが、HMMERのほうがよりドメインの検出感度が高いようです。タンパク質ドメインのデータベースとしては、アノテーション精度が高いPfamがよく利用されており、HMMERを使ったドメイン検索ができる。

HMMERを利用したドメイン検出手順(Linux環境)

HMMERのインストール
HMMERのサイト(http://hmmer.janelia.org/)よりファイルをダウンロードし、解凍後にディレクトリ内のINSTALLにしたがって、環境にインストールする(Ubuntuであれば "$ sudo apt-get install hmmer" の実行でもインストール可能)。
PfamデータベースからHMMプロファイルデータ取得
Pfam(version28.0)のFTPサイト(ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam28.0/)より、"Pfam-A.hmm.gz" をダウンロード及び解凍する。
HMMERの "hmmpress" コマンドによるプロファイルデータのバイナリ化
2. で解凍したプロファイルデータに対して、
```
$ hmmpress Pfam-A.hmm
```
を実行し、プロファイルデータをバイナリ化する。

HMMERの "hmmscan" コマンドによるドメイン検索
```
$ hmmscan --tblout [結果出力ファイル] --cpu [使用CPU数] -E [E-value閾値] Pfam-A.hmm [クエリー配列FASTAファイル]
```
上記コマンドを実行することで、クエリー配列をバイナリ化プロファイルデータに対してドメイン検索をかけ、指定した閾値以下でドメイン検出があれば、そのドメイン情報をファイルに出力する(自分は大体 E-valueを "1e-5" に設定してます)。
"hmmscan" には他にも色々なオプションがあるので、興味がある方はヘルプコマンドで参照してください。

以上の手順でPfamデータベースへのドメイン検索ができ、結果ファイルを見ることで、各タンパク質に含まれるドメイン構成・機能を把握できます。

また大量のタンパク質データ群からドメインの機能情報を抽出したい場合には、GeneOntology ConsortiumのFTPサイト(ftp://ftp.geneontology.org/pub/go/external2go/)から、PfamドメインIDとGOterms(遺伝子機能情報のID)を紐づけたファイル "pfam2go" をダウンロードし、GO機能情報を各ドメイン情報に紐づけることで、タンパク質全体の網羅的な機能解析を行うことが出来ます。