Discpher key facts from large-scale biological data

これからのバイオインフォマティクスは、ビッグデータ解析技術や機械学習の最新の成果(データサイエンス)を取り入れてデータを解析することが必要です。 生物学が扱う計測データは、次世代シーケンサ、質量分析器、イメージング技術など多岐に渡り、そのそれぞれについて、多様な実験アプリケーションと組み合わされ大量のゲノム・オミックス情報を生じます。そして、それらのデータの多くは既存のデータと比較することで初めて意味を成すものです。 ゲノム医療、生物学を成り立たせるためには、クラウド標準的な方法でデータを集積し解析することが必要です。また、多くのノイズを含む多次元のデータを解析するには深層学習を代表とする機械学習の技術が欠かせません。Kubernetes/Spark/Object Storageといったクラウドの標準的な仮想化、分散処理、ストレージ技術を活用し、生命情報のソフトウェア的な解析基盤を開発しています。また、大規模ながんゲノム解析に活用しています。加えて、nanoporeシーケンサを用いた塩基修飾解析に深層学習を活用するなど、これまで見過ごされがちであったエピトランスクリプトーム解析を情報学的に進めることを目指しています。

PEOPLE