論文 Hugging Face 発表: 2026-04-19 HF ↑62

OneVL: ビジョン言語説明を用いたワンステップ潜在推論・計画

OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

著者: Jinghui Lu, Jiayi Guan, Zhijian Huang, Jinlong Li, Guang Li ほか45名

要約

自律走行における軌道予測では、Chain-of-Thought(CoT)推論がVLA(Vision-Language-Action)モデルの性能を押し上げてきた。しかし自己回帰的な生成はリアルタイム展開を阻む遅延コストを生じる。潜在CoT手法はこの問題を連続隠れ状態への圧縮で解決しようとするが、明示的CoTには及ばないとされてきた。本論文はその原因を、純粋な言語的潜在表現が因果ダイナミクスではなく記号的抽象を圧縮している点に求める。そこで提案するOneVLは、VLAとWorld Modelを統合したフレームワークであり、テキストCoTを復元する言語デコーダに加え、将来フレームトークンを予測する視覚ワールドモデルデコーダを導入する。これにより潜在空間に道路幾何・エージェント動作・環境変化の因果ダイナミクスを内包させる。3段階の学習パイプラインで安定した最適化を実現し、推論時には補助デコーダを廃棄して単一並列パスで処理する。4つのベンチマークで初めて潜在CoTが明示的CoTを上回る精度を達成した。

筆者コメント

本論文の最大の貢献は、「なぜ潜在CoTが明示的CoTに劣るのか」という問いに対して、世界モデル(World Model)監督という明確な仮説と解法を提示した点にあると考えられる。類似の枠組みとしてDriveLM・DriveVLMなどの明示的CoT手法や、EAGLE・Coconutのような潜在推論手法が存在するが、視覚的未来予測を補助損失として潜在表現の品質向上に使う着眼は新規性が高いと見られる。一方で懸念点もある。まず、推論時に補助デコーダを廃棄する設計は計算効率上魅力的だが、学習時の3段階パイプラインは相応の計算コストと実装複雑性を伴うと推測される。次に、本手法は主にnuScenesなど英語圏・欧米環境のデータセットで評価されており、日本の交通環境(密集交差点・二輪車・独自標識など)への汎化性は別途検証が必要と考えられる。また、小米(Xiaomi)の組み込みインテリジェンスチームによる成果であり、実用化フェーズに近い研究と見られるが、モデルの公開範囲やライセンスについてはプロジェクトページで確認が必要だろう。自動運転以外にも、ロボット操作など因果ダイナミクスが重要なドメインへの応用も期待できる。

※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。

#agent#robotics#benchmark

同じカテゴリの記事