論文 Hugging Face 発表: 2026-04-19

セッション横断パーソナライズドツール呼び出しのための潜在的選好モデリング

Latent Preference Modeling for Cross-Session Personalized Tool Calling

著者: Yejin Yoon, Minseo Kim, Taeuk Kim

要約

LLMベースのエージェントにおいて、ユーザーはリクエストに必要な詳細を省略しがちであり、ツール呼び出し（tool calling）に必要な引数が不足するという根本的課題が存在する。本論文ではこの問題を体系的に研究するため、選好想起（Preference Recall）・選好誘導（Preference Induction）・選好転移（Preference Transfer）の3課題を網羅した265件のマルチセッション対話ベンチマーク「MPT」を構築した。さらに、ユーザー選好を進化する仮説として表現するテスト時メモリ拡張手法「PRefine」を提案する。PRefineは生成・検証・精錬（generate–verify–refine）のループにより過去履歴から再利用可能な制約を抽出し、完全履歴プロンプティングに比べわずか1.24%のトークン数でツール呼び出し精度を向上させることを示した。これらの成果は、エージェントシステムの堅牢なパーソナライゼーションには、ユーザーの選択そのものだけでなく、その背後にある理由を捉えるメモリが重要であることを示唆している。

筆者コメント

本研究は、LLMエージェントにおけるパーソナライゼーションを「ツール引数補完」という具体的な実用タスクに落とし込んでいる点が新しいと見られる。従来のパーソナライゼーション研究はレコメンデーションや対話スタイル適応が主流であったが、APIコール完結性という観点は実務的な重要性が高い。PRefineの「選好を仮説として保持し反復精錬する」設計は、ReActやReflexionのような自己修正フレームワークの系譜に連なりつつも、ユーザー固有の暗黙的制約の抽出に特化している点で差別化されていると考えられる。実務応用面では、日本語環境での適用時に注意が必要と見られる。日本語ユーザーは省略・敬語・文脈依存表現が英語以上に多く、選好の自動誘導がより困難になる可能性がある。また、MPTベンチマークが英語中心に設計されている場合、多言語対応の評価が不足している懸念もある。トークン使用量を1.24%に削減できる点は商用API利用コスト削減の観点で魅力的だが、メモリの蓄積・管理コストや選好仮説の誤収束リスクについては論文本文を確認していないため不明である。パーソナライズドエージェント開発者にとって参照価値の高い研究だと考えられる。

※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。

#agent#llm#benchmark

セッション横断パーソナライズドツール呼び出しのための潜在的選好モデリング

要約

筆者コメント

同じカテゴリの記事

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合