バイオインフォマティクス初心者の日常

バイオインフォマティクス関連の研究・勉強などなど

wgetコマンドを利用したデータベースからの配列データ自動取得の流れ

各種データベースの管理するFTP(File Transfer Protocol)サイトからデータを自動取得する方法についてのメモ

データベースから配列データを取得することは研究の中で日常的に行うことなので、コマンドによるデータの取得がよく利用され、こうしたコマンドをプログラムに組み込むことでデータの自動取得が可能になる。

データの自動取得はFTPサイトを介してwgetコマンドを利用することで行う。
FTP: データ転送を行う通信プロトコルのこと(wiki参照)

コマンドによる配列データの取得方法

EnsemblデータベースのFTPサイトからヒトの全タンパク質配列データを取得する方法を例として説明します。

  1. wgetコマンドで指定したファイルをダウンロード

    $ wget -c -r -nd ftp://ftp.ensembl.org/pub/release-81/fasta/homo_sapiens/pep/Homo_sapiens.GRCh38.pep.all.fa.gz 

    このコマンドで、Ensemblデータベース(version81)におけるヒトの全タンパク質配列FASTAの圧縮ファイル("Homo_sapiens .GRCh38.pep.all.fa.gz")がカレントディレクトリ内にダウンロードされる。

    またオプション設定によって、指定した階層ディレクトリ内における特定の拡張子ファイル群のみをダウンロードすることもできる。ただし、正規表現のような柔軟なファイル検索はできない。詳しいオプション設定等は下記サイトを参照のこと。
    参考サイト: Linuxコマンド集 - 【 wget 】 ファイルをダウンロードする:ITpro


  2. gunzipコマンドで圧縮されているダウンロードファイルを解凍

    $ gunzip Homo_sapiens.GRCh38.pep.all.fa.gz 

    このコマンドで、カレントディレクトリ内にヒトの全タンパク質配列FASTAファイル("Homo_sapiens.GRCh38.pep.all.fa")が解凍・生成される。
    参考サイト: Linuxコマンド集 - 【 gunzip 】 ファイルを展開する(拡張子.gz):ITpro

上記のような流れで、データベースからデータを自動取得・解凍し、自分のデータ解析に利用するパターンは研究の中でよく出てくる。コマンドを組み込んだプログラムでデータの自動取得ができるようになると、大量のデータの取得が容易になり、解析パイプラインのデータを最新版に更新しやすくなる等の利点があります。