NCBIから特定のGI numberリストを取得する方法
NCBIのWebサービスを利用して、特定のGI numberリストを取得する方法のメモ
研究の中でNCBIデータベース上にあるウイルス全タンパク質のGI numberリストが必要になったので、その方法を探してみました。すると、NCBIの検索機能である "Entrez" を利用することで、リスト取得ができたので、その方法の紹介をします。
※ GI number : NCBIに登録された各配列に付与された一意的な識別子
NCBIから特定のGI numberリストを取得する方法
ウイルス全タンパク質のGI numberリストの取得方法を例として説明します。
- NCBIで検索対象の系統名を検索
NCBIサイトの検索画面で、"Viruses" と検索すると、NCBIの複数データベースで "Entrez" によって検出された "Viruses" に関連した情報がそれぞれいくつあるのかが下記のように示されます。
この結果から、今回注目する "Viruses" の全タンパク質の数が "Proteins->Protein" から3,401,351個であることが分かります。
- GI numberリストファイルの取得
"Proteins->Protein" をクリックすると、検索した "Viruses" 配列の詳細な情報が個別に出てきます。
その画面の下のほうに、下記のような表記がされている部分があるので、
ここの "Send to" をクリックします。すると、
"Choose Destination" という項目が出てくるので、"File" を選択し、Formatを "GI List" にします。この状態で、"Create File" をクリックすることで、ウイルスの全タンパク質のGI numberリストが記述されたファイルを取得できます。同じような操作で塩基配列のGI numberリスト等の取得も可能です。