バイオインフォマティクス初心者の日常

バイオインフォマティクス関連の研究・勉強などなど

配列クラスタリングプログラムCD-HITの使い方

配列データベースの冗長性を排除するために、配列類似性に基づいてクラスタリングを行うプログラムCD-HIT(Cluster Database at High Identity with Torelance)の使い方メモ

近年の配列データの増加に伴い、配列データベースの冗長性が増えたため、類似性が非常に高い配列はクラスタリングされることが好ましい。
CD-HITは配列クラスタリングを実行するプログラムであり、初めにデータベース内の配列同士で断片化させた短いワード検索を行う。その後、一定閾値以上の類似ワードが検出された配列同士でのみアライメントを行い、指定した閾値以上の類似性をもつ配列をクラスタリングする。

このように検索手順を2段階に設定することで、プログラムの実行時間を短縮させている(ただし、クラスタリングの類似性閾値を低く設定するほど、ワード検索の精度が低下し、クラスタリングの漏れが生じる可能性が増大)。


CD-HITのダウンロード&インストール
GitHubサイトより、"Download ZIP" をクリックでダウンロードを行う。
ダウンロードファイルを解凍し、解凍ディレクトリ内で "make" コマンドでコンパイルすることで、プログラムが作成される。 最後に作成されたプログラムにパスを通す。

CD-HITの実行
cd-hitの基本的なコマンド実行例

$ cd-hit -i [入力FASTAファイル] -o [出力クラスタリングFASTAファイル] -c [クラスタリング類似性閾値 (0~1)] -T [使用Thread数]

上記コマンドにより、入力FASTAファイル内の指定閾値以上でクラスタリングされた配列群の中で最長の代表配列のみを指定先ファイルに出力する。


参考サイト
CD-HIT Official Website
CD-HIT User's Guide

参考文献
Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences. Weizhong Li & Adam Godzik Bioinformatics. (2006) 22:1658-9.

Limin Fu, Beifang Niu, Zhengwei Zhu, Sitao Wu and Weizhong Li, CD-HIT: accelerated for clustering the next generation sequencing data. Bioinformatics, (2012), 28 (23): 3150-3152.