生命になくてはならないもの、それは情報(ゲノム)です。 しかし、同じゲノムをもっている個体や細胞であっても、それらの間には様々な不均一性が生まれることが知られています。 我々生命はどこまでが情報により規定され、どこからが自由に決定される存在なのでしょうか?
そんな素朴な疑問に答えるため、高次元の情報を使って生命の様々なプロセスが決定される仕組みを明らかにする研究に取り組んでいきます。
大量の情報を一度に計測することで細胞がもつ真の姿に迫れるようになった一方、それを理解するためのシステムの発見はまだまだ途上です。 最新の情報科学や人工知能技術を応用することで、人が解釈できる形での生命システムの理解を目指します。
エピゲノムはDNA上に見られる修飾情報のことで、そこから転写される遺伝子をダイナミックに制御することで、ヒトなどの多細胞生物においてはさまざまな組織や細胞種を生み出すために不可欠です。そんなエピゲノム情報を一細胞レベルで計測できる技術が、近年いくつも開発されており、そのうち広く適用されている技術の一つがSingle-cell Assay for Transposase Accessible Chromatin with Sequencing (scATAC-seq)と呼ばれる手法です。他にもDNAのメチル化を調べる手法(sn-m3C-seq)やヒストン修飾を認識する抗体を利用した手法(scCUT&TAG)などの手法により、それぞれのDNA領域がどのような制御状態にあるのかを一細胞レベルで詳細に知ることができます。
こうしたエピゲノム情報は、iPS細胞やES細胞などの多能性幹細胞の初期化過程において特に重要で、初期化前のエピゲノム状態の一部が初期化から逃れることで、同じ条件で作られた細胞であっても様々な機能の違いをもつことが知られています。こうした現象は「エピジェネティックメモリー」と呼ばれ、分化前の細胞状態が分化後にも影響を及ぼしたり、過去の感染や炎症、創傷などによってその後の細胞の反応が変化するなどの様々な生物学的な機能と関わっています。そこで私達は情報科学的なアプローチ、特にメタ統合解析と深層学習技術によって、ゲノム配列とエピジェネティクメモリーから生み出される遺伝子制御ネットワークの予測と理解を目指しています。
参考文献:
私が着目しているのは、細胞ごとに見られるエピゲノム状態のゆらぎを生み出す仕組みと、そこから引き起こされる細胞状態遷移の確率性の理解です。一細胞エピゲノム解析における網羅性・深度などのバイアス問題を深層学習モデルによって克服し、細胞の初期化や分化などの細胞遷移の過程で、様々な外的な力により生み出されるエピゲノム変化(ひずみ)が、確率的に細胞を遷移させる過程を説明する物理モデルの構築を目指します。
医療の分野では患者さんの様々な情報から、最適な治療方針や予後の予測を行い、よりよい医療が提供されることを目指しています。このとき、患者さんのバックグラウンド情報や、血液から得られた遺伝子変異やトランスクリプトーム、画像などのマルチモダリティな情報を同時に扱う必要があります。さらに医療情報の解析には、個人情報の保護や十分なデータ数の確保が難しい点、そして病院横断的なデータの非均一性などの問題があることが知られています。 私達の研究室では、こうした医療データの適切な規格化、機械学習の適応プラットフォームの確立と、それらの病院横断的な頑健性の検証を進めています。
参考文献:
これ以外にも、RNA二次構造や脂質などの分子レベルのものから、発達過程の進化や老化などの個体レベルの事象のさらなる理解を、情報科学を駆使することにより推し進めていきます。
新たな効率的世界中の生物学の分野ではDNAのシーケンシング技術の発明によりヒトゲノムが解読されてから、大量の情報が計測されるようになりました。それらはミクロな分子や細胞の情報から、マクロな個体レベルの情報まで多岐に渡ります。こうして得られた情報から新たな発見をするためには、ターゲットとなる生物の知識だけではなく、それらを解析するための情報科学や統計の知識が必要不可欠です。
iPS細胞研究所において主たる研究対象であるiPS細胞やES細胞などの多能性幹細胞技術は、再生医療や疾患モデルの構築において多大なる貢献をしてきました。しかし、一般にもこれらの技術を普及させるためには、高額な費用問題の解決や安定的かつ高品質な細胞の供給が欠かせません。それには、より詳細な初期化・分化のメカニズムの理解と、それぞれの条件や患者さんに適用した際の状態の高精度な予測を行うことが求められています。
また、iPS細胞の作成には効率的なスタンダードとなる作成方法はありつつも、異なる初期化因子の導入法や培地の利用など、各機関によってばらつきが存在します。こうした個人や機関に由来する様々なばらつきの特定と、それによらない生物学的シグナルの検出を、大量のデータを俯瞰的に見ることができる情報科学の力によって進めていきます。
リプログラミングに関わる因子の多くは転写因子であり、周期的に遺伝子発現状態が変化している細胞に大量の因子をトランスフェクションすることで、その周期を抜け出し新たな細胞状態(初期化状態)へと変化することができるようになります。しかし、同じ細胞に同じようにトランスフェクションを行っても初期化される細胞とされない細胞がいたり、またそこから別の状態へ移行するなどのカオス的挙動を取ることが知られています。
そもそも多くの転写因子は、DNAの特定のモチーフを認識して結合するものと考えられています。しかし、転写因子の結合箇所を調べるChIP-seqなどのデータを解析してみると、実はモチーフがあれば必ず結合するかというとそうではなく、少なくない数がモチーフを持たないような領域であることが知られています。 また、リプログラミング因子のうちOct4/Sox2/Nanogは協調的結合をする因子であることが多くの研究から示唆されており、お互いがインタラクトしながら様々な遺伝子領域にアタックし、エピゲノム状態を大きく変化させることで遺伝子発現を短い期間で動的に変化させているのではないかと言われています。
近年開発された様々な深層学習モデルをもってしてもなかなか精度の上昇が見られない転写因子の結合サイト予測を、転写因子の協調的結合と事前エピゲノム状態を考慮に入れることによって、細胞内で濃度依存的に起きる確率的な結合イベントと細胞状態の遷移を説明できるモデルの構築を目指しています。
参考文献:
ゲノムに引き起こされる様々な変異は、ときに疾患というフェノタイプを生み出します。ロングリードシーケンサーなどの最新の解析技術によって、長いリピート配列などを含むヒトゲノム全体をまさにテロメアからテロメアまで読むことで、これまで見つかってこなかった、もしくは特定の難しかった疾患関連変異というものも簡便に見つかるようになってきました。しかし、タンパク質をコードする領域の多くのミスセンス変異などのように、特定のタンパク質の機能を欠失させるようなものではないゲノム変異の場合、一体どのような機構で疾患と関連しているのかを明らかにすることは容易ではありません。
そこで我々は、情報科学的な配列解析技術と大量のマルチオミクスデータを突き合わせ、その領域とDNAやRNAなどを介してインタラクトする様々な因子の機能の変化を予測し、疾患のメカニズム解明につながる制御ネットワークを明らかにします。