情報解析システム

解析サーバー

当研究室では、次世代シーケンサーを用いたゲノム、エピゲノム、トランスクリプトーム解析を、臨床症例や様々な細胞種について進めており、多重的・網羅的な解析を推進している。 2008年の次世代シーケンサー導入以降、シーケンス試薬や解析技術改良により、精度の向上と共にシーケンス解読量も指数関数的に伸びており、2011年秋時点で1回の実験(約2週間)で600Gbase(6×1011=6000億塩基、ヒトゲノム=30億塩基の300倍相当)のデータが得られる。

がんはゲノム異常に基づく疾患であることから、次世代シーケンサーによる分子レベルの病態の解明や、治療法や診断法の実用化に向け、特に期待が大きい研究分野である。世界的に競争力を持って解析を進めるためには、単に次世代シーケンサーにより配列データを取得するのみでなく、増大するシーケンスデータを如何に早く効率よく計算機処理するかが重要である。 次世代シーケンサーから出力される配列データは、ヒトゲノムなどへアラインメントを行い、ゲノムの変異やコピー数、構造異常の検出、DNAやヒストンのメチル化などのエピゲノム解析、RNA-seqによる発現量解析や融合遺伝子、新規転写物の探索など、様々な解析を行います。いずれの解析でも膨大な配列データから生物学的な解釈を得るために、以下のような計算機リソースを駆使し解析、管理、保管している。

  • マルチコアサーバ・16core/32GB/20TB(Diskarray) ・32core/512GB/GlusterFS (CPU core/Memory/Storage) ゲノムへアラインメントや、2次解析(変異解析、新規転写物探索など)に利用する。
  • PCクラスタCPU 64core, メモリ4GB/coreの計算ノードで構成されるPCクラスタでは、ジョブ分散ツール”GridEngine”により並列計算が可能です。急増するシーケンスデータに対応するために、計300core以上へ拡張予定である。
  • 分散ファイルシステム 多数のプロセスを並列実行する大規模計算では、同時に大量の通信が発生しボトルネックになる。オープンソースのGlusterFS(*)を用いた分散ファイルシステムでは、並列計算による同時多数のファイルI/Oの負荷が分散され、ストレージへの通信ボトルネックを解消する。

(*)GlusterFSでは、複数のホスト(クライアント)のストレージを高速なインターコネクト(Infiniband, QDR 40Gbps)で接続しクラスタ化することで、仮想的に大きな1つのボリュームを構築できる。多数のI/Oが集中してもホスト毎にI/Oが分散される高速ストレージとして利用できる。クラスタにホストを追加することでペタバイト以上への容量拡張も可能である。