論文 Hugging Face 発表: 2026-04-15 HF ↑5

LeapAlign: 2ステップ軌跡構築による任意の生成ステップでのフローマッチングモデルの事後学習アライメント

LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

著者: Zhanhao Liang, Tao Yang, Jie Wu, Chengjian Feng, Liang Zheng

要約

本論文は、フローマッチング(flow matching)モデルの人間の嗜好への適合を扱う。報酬勾配(reward gradient)を微分可能な生成プロセスを通じて逆伝播する方法が有望だが、長い軌跡への逆伝播は膨大なメモリと勾配爆発をもたらす。そこで著者らはLeapAlignを提案する。連続する2つのリープ(leap)により長い軌跡を2ステップに短縮し、各リープで複数のODEサンプリングステップをスキップして潜在変数を予測する。リープの開始・終了タイムステップをランダム化することで、任意の生成ステップでの効率的で安定した学習を実現する。短縮された軌跡の長い生成経路との整合性に基づいて学習重みを割り当て、勾配の大きさに応じて重みを段階的に削減し安定性を向上させている。Fluxモデルの微調整において、LeapAlignは従来手法を上回る画像品質とテキスト整合性を実現している。

#fine-tuning#alignment

LeapAlign: 2ステップ軌跡構築による任意の生成ステップでのフローマッチングモデルの事後学習アライメント

要約

同じカテゴリの記事

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合