論文 arXiv 発表: 2026-04-16

視覚なしで視点回転を理解できるか？LLMとVLMの解釈可能性研究

How Do LLMs and VLMs Understand Viewpoint Rotation Without Vision? An Interpretability Study

著者: Zhen Yang, Ping Jian, Zhongbin Guo, Zuming Zhang, Chengzhi Li ほか3名

要約

空間知能（spatial intelligence）への関心が高まる中、視覚情報なしのテキストのみで言語モデルが空間認識を実現できるかは未解明だった。本研究では「視点回転理解（Viewpoint Rotation Understanding, VRU）」を基本的・重要な能力として設定し、LLM・VLMに対してテキスト記述のみを用いて複数ステップの視点回転後の最終視点と観測結果を推論させる。提案データセットにおいて人間が100%の正解率を達成するのに対し、LLM・VLMはいずれも大幅に劣ることが示され、現行モデルと空間知能の要件との大きなギャップが明らかになった。解明のため、層ごとのプロービング解析（layer-wise probing analysis）と注意ヘッドごとの因果介入（head-wise causal intervention）を実施。モデルは隠れ状態に視点情報を符号化しているものの、視点位置と対応する観測のバインディングに失敗し、最終層でハルシネーションが生じると分析された。最後に、因果介入で特定した重要な注意ヘッドを選択的にファインチューニングすることでVRU性能が向上し、汎用能力の破滅的忘却（catastrophic forgetting）を回避できることも実験で確認された。

筆者コメント

本研究の最大の意義は、空間知能をVQAや3D推論といった視覚タスクの枠外で、純粋に言語的観点から体系的に問い直した点にあると考えられる。BLINKやSpatialBotなどのマルチモーダルベンチマークが視覚情報を前提とするのに対し、本研究はテキスト単独での空間推論能力を切り離して評価しており、モデルの「言語的空間理解」の限界を明確化している点が新しい。因果介入によって特定された注意ヘッドを選択的にファインチューニングするアプローチは、LORAなどの従来のPEFT手法とは異なり、解釈可能性の知見を直接最適化に活用する点で興味深い。ただし、特定した注意ヘッドの汎化性能や、タスクの複雑度が増した際のスケーラビリティについては論文本文を精査しないと判断しにくい。実務面では、ロボット経路指示・AR/VRナビゲーション・地図なしの場所案内など、空間記述をテキストで扱うシステムへの示唆が大きい。日本語への適用時は、空間表現の語順や助詞依存性が英語と異なるため、同種のプロービング分析を日本語データで再検証する必要があると見られる。コードとデータセットが公開予定である点は再現性の観点から歓迎される。

※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。

#llm#multimodal#fine-tuning

視覚なしで視点回転を理解できるか？LLMとVLMの解釈可能性研究

要約

筆者コメント

同じカテゴリの記事

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合