次世代シーケンサおよび質量分析機から出力される計測データをハイスループットに解析する情報科学的手法を開発しています。近年、生物学で計測される電子データは増加の一途をたどっており、大量の生物学データを標準的な方法で処理することがすでに困難な課題となっています。加えて、異なる次元のデータを統合し、従来モデル化が難しいデータに対しても関連性を見出すためには、ビッグデータ解析技術や機械学習の最新の成果(データサイエンス)を取り入れて情報解析を行うことが不可欠になっています。以下の研究を行っています。 1. エピトランスクリプトームの情報解析技術 エピトランスクリプトームと呼ばれるRNAの修飾を含めた解析手法が注目されています。これまでの研究において、塩基レベルでトランスクリプトーム中のイノシン修飾部位を網羅的に検出するバイオインフォマティクス的手法を開発しています。 2. がんゲノミクスの情報解析技術 がん細胞のゲノムに生じた体細胞変異を網羅的に検出することが可能になり、研究のみならず、臨床応用においても積極的な次世代シーケンサの活用が進んでいます。がんの検体では腫瘍細胞の純度(腫瘍率)が低いことも多く、解析を難しいものとしています。これまでの研究で、ノイズの多い環境下であっても、高い精度でがん細胞における体細胞変異、コピー数変異、腫瘍率を算出するアルゴリズムの開発を行い、先端研を含む複数の組織で研究に活用されています。 3.データサイエンスを用いた生命情報データ解析基盤 大量のゲノムデータの中から生物学的な意味や関連性を見出すには大規模にデータを集約させ、分散処理を行う必要があります。将来的な大規模クラウド運用を見据えて、Hadoop/Sparkといったクラウドで標準的な分散技術や深層学習のライブラリを用いた生命情報の解析基盤を開発しています。