論文 Hugging Face 発表: 2026-04-15 HF ↑2

MM-WebAgent: Webページ生成のための階層的マルチモーダルWebエージェント

MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

著者: Yan Li, Zezi Zeng, Yifan Yang, Yuqing Yang, Ning Liao ほか10名

要約

AIGC(AI生成コンテンツ)ツールの進展により、Webページ設計で画像・動画・ビジュアライゼーションをオンデマンド生成できるようになった一方、要素を個別に生成すると全体的な統一性とデザイン一貫性に問題が生じる。本論文ではMM-WebAgentを提案し、階層的計画と反復的な自己反省を通じてAIGC基盤の要素生成を調整する階層的エージェント(agent)フレームワークを構築した。グローバルレイアウト、ローカルなマルチモーダルコンテンツ、およびそれらの統合を共同最適化することで、統一性があり視覚的に一貫性のあるWebページを生成する。マルチモーダルWebページ生成ベンチマークと多段階評価プロトコルも導入し、コード生成やエージェント基盤の既存手法を上回る性能を示した。

#agent#multimodal#benchmark

同じカテゴリの記事