論文 arXiv 発表: 2026-05-12

OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation

著者: Guohui Zhang, XiaoXiao Ma, Jie Huang, Hang Xu, Hu Yu ほか7名

要約

Recent advances in joint audio-video generation have been remarkable, yet real-world applications demand strong per-modality fidelity, cross-modal alignment, and fine-grained synchronization. Reinforcement Learning (RL) offers a promising paradigm, but its extension to multi-objective and multi-moda…

#alignment#diffusion#rl#multimodal#fine-tuning

OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation

要約

同じカテゴリの記事

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合