MolmoAct2:現実世界展開のための行動推論モデル
MolmoAct2: Action Reasoning Models for Real-world Deployment
要約
ロボット向けの汎用コントローラーを目指すVision-Language-Action(VLA)モデルは、実世界展開の観点でクローズドモデルや高価なハードウェア依存、高レイテンシといった課題を抱えている。本研究ではAllen AIが完全オープンな行動推論モデル「MolmoAct2」を発表。5つの軸で改善を加え、空間・身体的推論に特化したVLMバックボーン「MolmoER」(330万サンプルで訓練)、低〜中コストプラットフォーム向け3種の新データセット(最大規模のオープン双腕データセット「MolmoAct2-BimanualYAM」720時間を含む)、オープンな行動トークナイザー「OpenFAST」、フローマッチング連続行動エキスパートをKVキャッシュ条件付けで統合した新アーキテクチャ、さらに変化領域のみ深度トークンを再予測する適応型推論「MolmoThink」を提供する。7つのベンチマークでPi-05を上回り、MolmoERは13の身体推論ベンチマークでGPT-5およびGemini Robotics ER-1.5を超えると報告している。モデル重み・訓練コード・データはすべて公開される。
ロボットAIの「オープンソース革命」が始まり、参入コストが数分の一になりそう
【短期(半年以内)】MolmoAct2の完全公開により、これまでpi0やGemini Roboticsなどのクローズドモデルにしか触れられなかった研究者・スタートアップが、最先端水準のVLAを自社ハードウェアで動かせるようになりそうだ。特にSO100/101やFrankaといった中低価格帯のロボットアームへの対応は、大学・中小規模の開発チームが実機検証を始めるハードルを大幅に下げるだろう。MolmoThinkによるレイテンシ削減が実際のリアルタイム制御で機能するかどうかが、短期の重要な検証ポイントになる。 【中期(1-2年)】ロボットAI領域においてHugging Faceのような「モデル・データ・コードの共有エコシステム」が本格的に立ち上がる契機になりえる。720時間の双腕データセット公開は、物流・製造・医療補助ロボットの微調整(fine-tuning)ベースとして転用される可能性が高く、特定タスク向けの派生モデルが多数登場するだろう。企業側では「VLAをスクラッチで開発する」選択肢より「MolmoAct2を起点にカスタマイズする」という戦略が現実的になり、開発期間・コストの短縮が見込まれる。一方でクローズドモデルを提供する企業は、データ品質・安全性・サポートで差別化を迫られる局面が来るだろう。 【長期(3-5年)】オープンなVLAエコシステムが成熟すれば、ロボット制御AIの競争軸は「モデルを持っているか」から「どれだけ良質なタスク固有データを持っているか」「推論インフラを最適化できるか」へとシフトしていきそうだ。データ収集・キュレーションを専業とするロボティクスデータ企業や、エッジ推論最適化を手がけるファブレスAIチップ・ソフトウェア企業が競争上の重要プレーヤーになる可能性がある。論文の主張通りGPT-5超えが広く再現されれば、汎用LLM企業がロボティクス推論特化モデルとの差別化を迫られる場面も出てくるだろう。
筆者コメント
本研究で特に注目すべきは、「完全オープン」という姿勢の徹底ぶりだ。モデル重みだけでなく、訓練コード・訓練データ・アクショントークナイザーまでセットで公開する点は、ロボティクスAI分野において異例に近い。これまでVLAの実用化は、Physical Intelligenceのpi0シリーズやGoogle DeepMindのような企業の閉鎖的エコシステムに依存しがちだったが、MolmoAct2はその構図を崩す可能性がある。MolmoThinkの「変化した領域のみ再推論」というアプローチは、計算コストとリアルタイム性のトレードオフを解決する実用的なアイデアであり、エッジデプロイを前提としたロボット実装で効果を発揮しそうだ。一方、720時間の双腕遠隔操作データは量的に見ると印象的だが、環境の多様性・タスクの難易度分布については論文本文で精査が必要と考えられる。また、GPT-5超えを主張するMolmoERの評価が「身体推論ベンチマーク」に限定されている点は、汎用VLMとの単純比較には慎重になるべきだろう。再現コストはSO100/101のような低コストハードウェア対応を考えると、従来より大幅に下がる見込みで、アカデミア・スタートアップへの恩恵は大きいと見られる。
※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。