論文 Hugging Face 発表: 2026-04-26 HF ↑1

知覚中心のプロセス報酬モデルによる視覚言語モデルの改善

Improving Vision-language Models with Perception-centric Process Reward Models

著者: Yingqian Min, Kun Zhou, Yifan Li, Yuhuan Wu, Han Peng ほか4名

要約

背景・課題：強化学習における検証可能な報酬（RLVR）は視覚言語モデル（VLM）の推論能力を向上させてきたが、結果レベルの監督信号は粗すぎて推論チェーン内のエラーを正確に診断・修正できないという問題がある。提案手法：本論文はPerceval という知覚中心のプロセス報酬モデル（PRM）を提案する。Percevalは応答から画像関連の主張を抽出し、視覚的証拠と照合することでトークンレベルのエラー同定を実現する。RLトレーニングでは従来のGRPOのシーケンスレベル優位性に代わり、Percevalが特定したハルシネーション箇所にペナルティを集中させるトークンレベルの細粒度監督を適用する。さらに推論時にも誤り箇所を切り捨てて再生成または自己反省を繰り返すテスト時スケーリングを実現する。成果：複数ドメインのベンチマークで顕著な改善を達成し、多数決投票等の既存戦略を上回る一貫したパフォーマンス向上を示した。コードとデータは公開予定とされている。

筆者コメント

本研究はPRM（プロセス報酬モデル）をVLMの視覚的ハルシネーション抑制に特化して設計している点が新規性と見られる。従来のPRMは主にテキストベースの数学的推論（例：Math-Shepherd、OmegaPRM）に適用されてきたが、視覚的知覚エラーへの適用は相対的に未開拓の領域であり、このアプローチは重要な方向性を示していると考えられる。GRPOのトークンレベル拡張という設計はDPO系の細粒度手法と概念的に近いが、視覚クレームと画像証拠の照合プロセスを明示的に組み込んでいる点が差別化要素だろう。実務応用面では、日本語マルチモーダルモデルへの適用時に、Percevalの学習データが英語中心の場合は知覚エラー検出精度が低下する可能性があり、日本語クレーム抽出の品質検証が必要と見られる。テスト時スケーリングとして誤り箇所の再生成を繰り返す戦略は推論コストが増大するため、レイテンシが重要なプロダクション環境での採用には慎重なコスト評価が求められるだろう。コード公開予定は再現性確保の観点で好ましいが、学習データの規模や品質の詳細が鍵になると考えられる。

※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。

#multimodal#rl#benchmark

知覚中心のプロセス報酬モデルによる視覚言語モデルの改善

要約

筆者コメント

同じカテゴリの記事

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合