2023年03月05日

拡散モデルで脳活動から見ているものを読み取る研究紹介

CVPRという国際学会で最近話題の拡散モデルを用いてfMRI画像で取られた脳の活動からその人が見ている絵を推定するという研究が2つ発表されていたので紹介します。

図は上記論文からの引用です。

内容

Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding(MinD-Vis )

https://arxiv.org/abs/2211.06956

初めてfMRIという非侵襲的な脳の記録を使用して侵襲的な手段と同様のパフォーマンスで画像をデコードした手法らしいです。

以下がGT(元画像, Ground Truth)に対する Ours 提案手法の出力結果で主な物体や背景、状況があっている上に高精細な画像が得られています。GT 元画像Ground Truth, Ours 提案手法

手法の詳細は以下の図で説明されています。学習は2つのステージに分かれていて1つはSparse-Coded Masked Brain Modeling (A) と呼ばれ ViT(Vision Transformer)を用いて脳の活動を表現するLatent Variable(隠れた変数)をfMRI画像から推定しています。脳活動の状態はfMRI画像に冗長な形で表現されている(Sparse-Coded)ことから測定条件の差異もこの方法によって吸収されるようです。Encoderには一部をMaskした画像を入れ、元の画像を予測するようにすることで隠れた変数が推定できます。Variational Autoencoderの畳み込みの部分を自動翻訳などの自然言語処理でよく用いられるAttensionに置き換えたような形です。

そうしてできたEncoder,Decoderの中間の隠れた変数をStable diffusionにおけるtext(prompt)のように拡散モデルに掛け合わせてるのがDouble-Conditioned Latent Diffusion Model(B)です。工夫点としてLatent diffusionのようにcross attentionで隠れた変数を掛け合わせているほかに脳活動の時間変化を埋め込むためUnetのcross attention以外の部分に掛け合わせています。

3つのMRIデータセット(Human Connectome Project (HCP) 1200,Generic Object Decoding Dataset (GOD) , BOLD5000)を使って学習、検証を行っています(BOLDはbrain blood-oxygen-level-dependentの略)。

正解GTに対して余計な要素が付加される例: 野原に対して青空、川など野外の自然の情景の要素が加わっている。家の外観に対して内装が推定されている。

失敗例 学習データに対応する物体のクラスがない、関係ない連想が働いているというのがその原因と論文では推定されている。

Reconstructing visual experiences from human brain activity with Stable Diffusion

MinD-Visとは対照的にStableDiffusioinで画像生成に使われるLDM(Latent Diffusion Model)をそのまま使っています(下図左)。人が見る画像はEncoder εで隠れた変数zに変換され、ノイズ印加(Diffusion Process)を経てノイズ画像zTになりますzTはText情報のベクトルcとともに逆拡散過程(Denoising U-net)を通ると再現された変数zCになりDecoder Dで画像に戻ります。脳のfMRIデータは線形モデルによって隠れた変数zに変換されLDMと同じDecoderで画像に戻し、同様にfMRI情報から線形モデルで変換されたText情報と一緒にLDMに入れて画像を再構成します。

結果として得られる画像の画質はMinD-Visには劣りますが、この研究で興味深いのはLDMの異なる構成要素(潜在ベクトルz、条件付け入力C、ノイズ除去U-Netの異なる要素など)が、異なる脳機能にどのように関連しているかを調べているところです。

下の図のように画像、テキストをEncodeした変数z,cに対応するfMRIの画像で血流の変動の予測精度が高いところに色がついていて、画像に対応するzはcよりも脳のより後ろの方の高次視覚野(visual cortex)で精度が高く、脳の機能に対応していることがわかります。ノイズを加えていった場合はどうかというとzcによる高次視覚野での予測精度が高くなりテキストの条件か関係していることが示されています。

拡散モデルの異なる段階や拡散モデルの1step内のU-netの各部位のfMRIの予測精度を同様に色で示したのが下図で、逆拡散(denoising)過程が進むとテキストの情報を持ったzc,そして画像の細かい部分に対応した変数による予測の寄与が大きくなることが図でわかります。

感想

工学的な精度、画質追求と理学的な脳の働きの解明と対照的な方向性の2つの研究ですが、どちらもLDMでできてしまうというのが拡散モデルの力のようです…恐ろしい。BMI(Brain Machine Interface)は障害のある人の意思疎通の手段として重要ですが非侵襲的に得られるデータから推定ができるのであれば健康な人にもリスクなく使えます。promptなしで想像しただけで映像ができてしまったり夢の内容が映像化できたりするのに使えそうですごく面白そうです。


    何か困ったことはありませんか?

    不具合や困りごと、ご意見・ご要望、質問など、TwitterのDMでお聞かせください。

    @promptonio
    ガイドライン

    v 0.1.0

    © Prompton.io