論文深掘り Hugging Face 発表: 2026-05-06 HF ↑18

Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

著者: Langlin Huang, Chengsong Huang, Jinyuan Li, Donghong Cai, Yuyi Yang ほか1名

要約

Reinforcement learning with verifiable rewards, particularly Group Relative Policy Optimization (GRPO), has significantly advanced the reasoning capabilities of Large Language Models (LLMs). However, in complex tasks, GRPO frequently suffers from the “zero-advantage problem”: when all sampled roll…

#llm#rl

Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

要約

同じカテゴリの記事

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合