バイオインフォマティクス初心者の日常

バイオインフォマティクス関連の研究・勉強などなど

NCBIから特定のGI numberリストを取得する方法

NCBIWebサービスを利用して、特定のGI numberリストを取得する方法のメモ

研究の中でNCBIデータベース上にあるウイルス全タンパク質のGI numberリストが必要になったので、その方法を探してみました。すると、NCBIの検索機能である "Entrez" を利用することで、リスト取得ができたので、その方法の紹介をします。
GI number : NCBIに登録された各配列に付与された一意的な識別子

NCBIから特定のGI numberリストを取得する方法
ウイルス全タンパク質のGI numberリストの取得方法を例として説明します。

  1. NCBIで検索対象の系統名を検索
    NCBIサイトの検索画面で、"Viruses" と検索すると、NCBI複数データベースで "Entrez" によって検出された "Viruses" に関連した情報がそれぞれいくつあるのかが下記のように示されます。
    f:id:sy-41211:20151207225204p:plain
    この結果から、今回注目する "Viruses" の全タンパク質の数が "Proteins->Protein" から3,401,351個であることが分かります。

  2. GI numberリストファイルの取得
    "Proteins->Protein" をクリックすると、検索した "Viruses" 配列の詳細な情報が個別に出てきます。
    その画面の下のほうに、下記のような表記がされている部分があるので、
    f:id:sy-41211:20151207200421p:plain
    ここの "Send to" をクリックします。すると、
    f:id:sy-41211:20151207201411p:plain
    "Choose Destination" という項目が出てくるので、"File" を選択し、Formatを "GI List" にします。この状態で、"Create File" をクリックすることで、ウイルスの全タンパク質のGI numberリストが記述されたファイルを取得できます。同じような操作で塩基配列のGI numberリスト等の取得も可能です。