LeapAlign: 2ステップ軌跡構築による任意の生成ステップでのフローマッチングモデルの事後学習アライメント
LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories
要約
本論文は、フローマッチング(flow matching)モデルの人間の嗜好への適合を扱う。報酬勾配(reward gradient)を微分可能な生成プロセスを通じて逆伝播する方法が有望だが、長い軌跡への逆伝播は膨大なメモリと勾配爆発をもたらす。そこで著者らはLeapAlignを提案する。連続する2つのリープ(leap)により長い軌跡を2ステップに短縮し、各リープで複数のODEサンプリングステップをスキップして潜在変数を予測する。リープの開始・終了タイムステップをランダム化することで、任意の生成ステップでの効率的で安定した学習を実現する。短縮された軌跡の長い生成経路との整合性に基づいて学習重みを割り当て、勾配の大きさに応じて重みを段階的に削減し安定性を向上させている。Fluxモデルの微調整において、LeapAlignは従来手法を上回る画像品質とテキスト整合性を実現している。