wgetコマンドを利用したデータベースからの配列データ自動取得の流れ
各種データベースの管理するFTP(File Transfer Protocol)サイトからデータを自動取得する方法についてのメモ
データベースから配列データを取得することは研究の中で日常的に行うことなので、コマンドによるデータの取得がよく利用され、こうしたコマンドをプログラムに組み込むことでデータの自動取得が可能になる。
データの自動取得はFTPサイトを介してwgetコマンドを利用することで行う。
※FTP: データ転送を行う通信プロトコルのこと(wiki参照)
コマンドによる配列データの取得方法
EnsemblデータベースのFTPサイトからヒトの全タンパク質配列データを取得する方法を例として説明します。
- wgetコマンドで指定したファイルをダウンロード
$ wget -c -r -nd ftp://ftp.ensembl.org/pub/release-81/fasta/homo_sapiens/pep/Homo_sapiens.GRCh38.pep.all.fa.gz
このコマンドで、Ensemblデータベース(version81)におけるヒトの全タンパク質配列FASTAの圧縮ファイル("Homo_sapiens .GRCh38.pep.all.fa.gz")がカレントディレクトリ内にダウンロードされる。
またオプション設定によって、指定した階層ディレクトリ内における特定の拡張子ファイル群のみをダウンロードすることもできる。ただし、正規表現のような柔軟なファイル検索はできない。詳しいオプション設定等は下記サイトを参照のこと。
参考サイト: Linuxコマンド集 - 【 wget 】 ファイルをダウンロードする:ITpro - gunzipコマンドで圧縮されているダウンロードファイルを解凍
$ gunzip Homo_sapiens.GRCh38.pep.all.fa.gz
このコマンドで、カレントディレクトリ内にヒトの全タンパク質配列FASTAファイル("Homo_sapiens.GRCh38.pep.all.fa")が解凍・生成される。
参考サイト: Linuxコマンド集 - 【 gunzip 】 ファイルを展開する(拡張子.gz):ITpro