論文深掘り Hugging Face 発表: 2026-05-06 HF ↑31

MARBLE: Multi-Aspect Reward Balance for Diffusion RL

著者: Canyu Zhao, Hao Chen, Yunze Tong, Yu Qiao, Jiacheng Li ほか1名

要約

Reinforcement learning fine-tuning has become the dominant approach for aligning diffusion models with human preferences. However, assessing images is intrinsically a multi-dimensional task, and multiple evaluation criteria need to be optimized simultaneously. Existing practice deal with multiple re…

#diffusion#fine-tuning#rl#coding#benchmark

MARBLE: Multi-Aspect Reward Balance for Diffusion RL

要約

同じカテゴリの記事

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合