俯瞰情報生物学研究室

生物学の分野ではDNAのシーケンシング技術の発明によりヒトゲノムが解読されてから、大量の情報が計測されるようになりました。それらはミクロな分子や細胞の情報から、マクロな個体レベルの情報まで多岐に渡ります。こうして得られた情報から新たな発見をするためには、ターゲットとなる生物の知識だけではなく、それらを解析するための情報科学や統計の知識が必要不可欠です。我々の研究室では、世界中で得られたデータを俯瞰的に比較解析するメタ統合解析技術によって、未知の遺伝子と生物の機能との関係性(ミッシングリンク)を明らかにすることを目指します。

一細胞エピゲノム解析

エピゲノムはDNA上に見られる修飾情報のことで、そこから転写される遺伝子をダイナミックに制御することで、ヒトなどの多細胞生物においてはさまざまな組織や細胞種を生み出すために不可欠です。そんなエピゲノム情報を一細胞レベルで計測できる技術が、近年いくつも開発され。Single-cell Assay for Transposase Accessible Chromatin with Sequencing (scATAC-seq)と呼ばれる手法です。他にもDNAのメチル化を調べる手法(sn-m3C-seq)やヒストン修飾を認識する抗体を利用した手法(scCUT&TAG)などの手法により、それぞれのDNA領域がどのような制御状態にあるのかを一細胞レベルで詳細に知ることができます。

こうしたエピゲノム情報は、iPS細胞やES細胞などの多能性幹細胞の初期化過程において特に重要で、初期化前のエピゲノム状態の一部が初期化から逃れることで、同じ条件で作られた細胞であっても様々な機能の違いをもつことが知られています。こうした現象は「エピジェネティックメモリー」と呼ばれ、分化前の細胞状態が分化後にも影響を及ぼしたり、過去の感染や炎症、創傷などによってその後の細胞の反応が変化するなどの様々な生物学的な機能と関わっています。そこで私達は情報科学的なアプローチ、特にメタ統合解析と深層学習技術によって、ゲノム配列とエピジェネティクメモリーから生み出される遺伝子制御ネットワークの予測と理解を目指しています。

参考文献:

  • エピゲノムと生命 DNAだけでない「遺伝」のしくみ(ブルーバックス)[link]
  • Kawaguchi RK, Tang Z, Fischer S, Rajesh C, Tripathy R, Koo PK, Gillis J. Briefings in Bioinformatics, 2022. [link]
  • Sheu YJ, Kawaguchi RK, Gillis J, Stillman B. eLife, 2022. [link]

小規模不均一データの機械学習と医療DX

医療の分野では患者さんの様々な情報から、最適な治療方針や予後の予測を行い、よりよい医療が提供されることを目指しています。このとき、患者さんのバックグラウンド情報や、血液から得られた遺伝子変異やトランスクリプトーム、画像などのマルチモダリティな情報を同時に扱う必要があります。さらに医療情報の解析には、個人情報の保護や十分なデータ数の確保が難しい点、そして病院横断的なデータの非均一性などの問題があることが知られています。 私達の研究室では、こうした医療データの適切な規格化、機械学習の適応プラットフォームの確立と、それらの病院横断的な頑健性の検証を進めています。

参考文献:

  • Kawaguchi RK†, Takahashi M†, Miyake M, Kinoshita M, Takahashi S, Ichimura K, Hamamoto R, Narita Y, Sese J. Cancers, 2021. [link]
  • Takahashi S, … Kawaguchi R, … et al. Cancers, 2021. [link]

これ以外にも、RNA二次構造や脂質などの分子レベルのものから、発達過程の進化や老化などの個体レベルの事象のさらなる理解を、情報科学を駆使することにより推し進めていきます。