バイオインフォマティクス初心者の日常

バイオインフォマティクス関連の研究・勉強などなど

NCBIの遺伝子IDであるGI numberが2016年9月より段階的に廃止

参考記事: NCBI is phasing out sequence GIs - use Accession.Version instead!

タイトル通りNCBIの遺伝子IDとして長く利用されてきたGI numberが2016年9月より段階的に廃止されていくらしい。今後は以前よりGI numberと混在していたAccession numberがNCBIの遺伝子IDとして主に利用されていくようです。
前々から同じ遺伝子配列に対して2つの遺伝子IDが付加されているのは少し煩わしいなと感じていたので、新しく始める人にはわかりやすくなりそう。昔からやってる人にとっては若干の記述の変更のせいでプログラムの書き直しをする必要があったり面倒なこともあるかも。。。

たまに必要になりそうだったので、GI numberからAccession numberに自動変換するPerlスクリプトを書いてみた。

続きを読む

Ubuntu14.04(16.04)へのOrthoMCL2.0.9のインストール方法

OrthoMCLは複数生物種のタンパク質FASTAファイルを読み込み、配列の類似性をもとにオーソログのクラスタリングを実行するプログラム
Ubuntu14.04(16.04)へのOrthoMCL ver2.0.9のインストールに少し手間取ったので、そのインストールをしたときのメモ書き

続きを読む

Bio::Perlを利用したAccession NumberからのGenbankファイルのダウンロードとGenbankからタンパク質FASTAへの変換方法

目的の生物種全ゲノムのGenbankファイルとそれに対応する全タンパク質FASTAファイルを手動でダウンロードするのが面倒だったので、Perlで自動化してみた。
Bio::Perlを利用したAccession NumberからのGenbankファイルのダウンロード及びGenbankファイルからの全タンパク質FASTAファイルへの変換のPerl自動化スクリプトのメモです。

続きを読む

Ubuntu14.04のデスクトップ環境をUnityからGNOMEへ変更する

Ubuntuは初期設定ではUnityというデスクトップ環境ですが、Windowsを利用してきた自分としてはいまいちインターフェースに慣れないので、WindowsライクなGNOMEデスクトップ環境に変更してみました。Ubuntu14.04でのGNOMEデスクトップ環境変更方法のメモ書きです。

続きを読む

バイオインフォマティクス初心者の選ぶプログラミング言語

バイオインフォマティクスでデータ解析を始めるにはプログラミング言語の習得が必要不可欠ですが、"どの言語を勉強すればいいのか!?" という疑問が初めに出るんじゃないかなと思います。
C, C++, Java, Perl, Ruby, Python, R、などの言語がバイオインフォマテクスで一般的に使われていますが、初心者にはどの言語にどんな違いがあるか判断がつきません。
そこで自分の経験(2年程度、PerlとRを主に利用)の中で、初心者がバイオインフォマティクスを始めるにあたって、どの言語を勉強すると良さそうか各言語の特徴をまとめながら個人的に考えてみた。

続きを読む

wgetコマンドを利用したデータベースからの配列データ自動取得の流れ

各種データベースの管理するFTP(File Transfer Protocol)サイトからデータを自動取得する方法についてのメモ

データベースから配列データを取得することは研究の中で日常的に行うことなので、コマンドによるデータの取得がよく利用され、こうしたコマンドをプログラムに組み込むことでデータの自動取得が可能になる。

データの自動取得はFTPサイトを介してwgetコマンドを利用することで行う。
FTP: データ転送を行う通信プロトコルのこと(wiki参照)

続きを読む

Googleスプレッドシートの印刷不具合について

研究の進捗状況のまとめでGoogleスプレッドシートをよく利用してるんですが、PC環境によって印刷ができたりできなかったりしたので、原因を調査してみた。

本来は印刷ボタンをクリックすると、PDF化されたシートのプレビュー画面が出てくるはずなのに、印刷出来ないときは印刷ボタンをクリックしても一切反応がない・・・

PC環境によって印刷ができたりできなかったりしたので、何が違うのか考えて、何となくGoogleアカウントでログインしている場合とそうでない場合で、印刷を試してみると、ログインしている場合には、きちんと印刷プレビュー画面が出てきました。

どうしてそんなことになっているのかわかりませんが、どうやらGoogleスプレッドシートGoogleアカウントでログインしている状態じゃないとPDF化して印刷ができないみたいですね。

cpanmを利用したperlモジュールインストール

perlのモジュールインストールに関するメモ

perlでは非常に多くのモジュール(プログラムの部品)が作られてきており、それらはCPANからダウンロードすることができます。
CPAN : Comprehensive Perl Archive Network

ただし、他人が作ったプログラムを使うには、ある程度perlの知識(オブジェクト指向とか)が必要になるので、ある程度perlの理解が進んでからCPANで公開されているモジュールを見たり、利用するといいと思います。
バイオインフォマティクスの世界では、"BioPerl" という解析パッケージが有名で、自分もBioPerlのいくつかの機能を研究用プログラムに組み込むことがあります。

続きを読む