2026-04-23

17件

← アーカイブ一覧

論文 深掘り Hugging Face 2026-04-21 HF ↑4

SkillLearnBench:実世界タスクにおけるエージェントスキル生成のための継続学習手法ベンチマーク

「強いLLMなら解決」神話が崩れ、エージェントスキル設計の評価基盤競争が始まりそう

LLMエージェント(大規模言語モデルエージェント)が複雑な実世界タスクを実行するための「スキル」は主流の手法となりつつあるが、それを自動かつ効果的に学習する方法は未解明であった。本研究では、継続学習(Continual Learning)手法を評価する初のベンチマーク「SkillLearnBench」を提案する。実世界のスキル分類体系から導出した15サブドメインにわたる20の検証済みタスクで構成され、スキル品質・実行軌跡・タスク成果の3レベルで評価される。評価の結果、全ての継続学習手法はスキルなしベースラインを上回るものの、全タスク・全LLMで一貫して優れる手法は存在しないことが判明。また、強力なLLMバックボーンへのスケーリングも必ずしも改善に繋がらず、外部フィードバックによる反復改善は有効な一方、自己フィードバック単独では再帰的なドリフトを引き起こすことも明らかになった。コードとデータはオープンソースで公開されている。

#llm#agent#benchmark
論文 深掘り Hugging Face 2026-04-21 HF ↑156

LLaDA2.0-Uni: 拡散大規模言語モデルによるマルチモーダル理解と生成の統合

「理解も生成も」を1モデルで担うオープンな統合基盤モデルが、マルチモーダルAIの開発競争を塗り替えるかもしれない

本研究は、テキストと画像の理解・生成を単一フレームワークで実現する統合型離散拡散大規模言語モデル(dLLM)「LLaDA2.0-Uni」を提案する。アーキテクチャは、完全意味的な離散トークナイザー、MoE(Mixture of Experts)ベースのdLLMバックボーン、拡散デコーダーの3要素で構成される。SigLIP-VQにより連続的な視覚入力を離散化し、テキストと視覚の両入力に対してブロックレベルのマスク拡散を実現。バックボーンのプレフィックス認識最適化とデコーダーの少ステップ蒸留により推論効率も向上させる。大規模データと多段階学習パイプラインにより、特化型VLM(Vision-Language Model)と同等のマルチモーダル理解性能を維持しつつ、高品質な画像生成・編集能力も達成。テキストと画像が混在するインターリーブ生成と推論をネイティブにサポートし、次世代統合基盤モデルの有望なパラダイムを示すと主張する。

#diffusion#multimodal#llm#coding#vision
論文 Hugging Face 2026-04-21 HF ↑13

生成的観点から空間知能を探る

マルチモーダル大規模言語モデル(multimodal large language model)における空間知能(spatial intelligence)は重要な能力だが、既存のベンチマークは理解(understanding)の側面のみを評価しており、生成(generation)の観点が欠けていた。本研究では、画像生成時に3D空間制約を遵守・操作する能力である「生成的空間知能(GSI: Generative Spatial Intelligence)」を定義し、その測定と改善を試みる。提案するGSI-Benchは、空間的根拠に基づく画像編集タスクを通じてGSIを定量評価する初のベンチマークであり、3Dプライオル誘導による実世界データセット「GSI-Real」と制御可能な合成ベンチマーク「GSI-Syn」の2コンポーネントで構成される。実験では、GSI-Synでの統合型マルチモーダルモデルのファインチューニングが合成・実世界タスク双方で大幅な性能向上をもたらし、さらに空間理解(spatial understanding)の下流タスクも改善されることが示された。生成的学習が空間推論を強化するという初の明確なエビデンスを提示し、マルチモーダルモデルの空間知能向上への新たな経路を開拓したと主張している。

#multimodal#benchmark#llm#fine-tuning#vision
論文 深掘り Hugging Face 2026-04-21 HF ↑41

近未来ポリシー最適化(NPO):自己の未来チェックポイントから学ぶ強化学習手法

「自己の未来から学ぶ」RLVRが、LLM強化学習のコスト構造を変えるかもしれない

強化学習における検証可能報酬を用いたポスト学習(RLVR)は、外部教師からの軌跡(高品質だが分布が遠い)か過去の訓練軌跡のリプレイ(近いが品質に上限がある)という二択の課題を抱えていた。本研究はこの問題に対し、「近未来ポリシー最適化(NPO: Near-Future Policy Optimization)」を提案する。NPOは同一訓練ランの後期チェックポイントを補助軌跡のソースとして活用する手法であり、現在のポリシーより強くかつ外部ソースより近いという両条件を自然に満たす。有効学習信号S=Q/Vを最大化するため、学習初期のブートストラッピングと後期の停滞突破という2つの手動介入を検証し、さらにオンライン訓練シグナルから自動的に介入を発動するAdaptive変種「AutoNPO」を提案。Qwen3-VL-8B-InstructとGRPOの組み合わせで平均性能を57.88から63.15へと向上させ、収束加速と性能上限引き上げの両立を実証した。

#rl
論文 Hugging Face 2026-04-21 HF ↑5

SWE-chat: 実際のユーザーによるコーディングエージェントのインタラクションデータセット

背景・課題として、AIコーディングエージェントの普及が進む一方で、実際の開発者がどのように使用しているか、またその出力がどの程度有用かを示す実証的証拠が不足していた。本研究では、オープンソース開発者の実際の利用から収集した初の大規模データセット「SWE-chat」を提案する。同データセットは現時点で6,000セッション・63,000件超のユーザープロンプト・355,000件のエージェントツール呼び出しを含み、継続的に自動収集される「生きたデータセット(living dataset)」として設計されている。分析の結果、コーディングパターンは二峰性(bimodal)を示し、41%のセッションではエージェントがほぼ全コードを生成する「バイブコーディング(vibe coding)」、23%では人間が全コードを記述することが判明した。またエージェント生成コードのうち実際のコミットに残るのは44%に留まり、人間が書いたコードより多くのセキュリティ脆弱性を含む傾向があるとしており、ベンチマークを超えた実証的理解への貢献が期待される。

#agent#coding#benchmark
論文 Hugging Face 2026-04-21 HF ↑16

DeVI: 合成動画模倣による物理ベースの巧みな人-物体インタラクション

近年の動画生成モデルの発展により、モーションキャプチャでは収集困難な複雑な手先操作を含む人-物体インタラクション(HOI)動画の合成が可能となった。しかし、生成動画は物理的忠実度が低く純粋な2D情報であるため、物理ベースのキャラクター制御の模倣ターゲットとして直接利用することが難しいという課題があった。本論文ではDeVI(Dexterous Video Imitation)を提案する。テキスト条件付き合成動画を活用し、未知の対象物体に対して物理的に妥当な巧みなエージェント制御を実現するフレームワークである。生成された2D手がかりの不精度を克服するため、3D人体トラッキングと頑健な2Dオブジェクトトラッキングを統合したハイブリッド追跡報酬を導入している。高品質な3D運動学的デモンストレーションを必要とする既存手法と異なり、DeVIは生成動画のみを入力とし、多様な物体や操作タイプへのゼロショット汎化を達成する。実験により、3D HOIデモを模倣する既存手法を上回り、特に手-物体インタラクションのモデリングで優れた性能を示すことが報告されている。

#agent#robotics
モデル NVIDIA 2026-04-23

OpenAIの新モデルGPT-5.5がNVIDIAインフラ上でCodexを強化——NVIDIAも早速導入

OpenAIは、エージェント型コーディングアプリケーション「Codex」の基盤モデルを最新の「GPT-5.5」へ刷新したと発表した。GPT-5.5はNVIDIAのGB200 NVL72ラックスケールシステム上で動作しており、高密度なGPUクラスタによる大規模推論基盤が支えているとされる。Codexは情報処理・複雑な問題解決・アイデア創出といったナレッジワーク領域へのAIエージェント活用を次の主戦場と位置づけており、すでに1万台以上の規模で展開されているという。NVIDIAは自社内でもCodexを実際に活用しており、最新モデルと最新ハードウェアの組み合わせによる実用性を自ら実証している形だ。同発表はAIエージェントが単なる補助ツールを超え、開発者の創造的・知的業務を主体的に推進する段階に移行しつつあるというOpenAIの戦略的方向性を示していると言える。

#agent#coding
論文 Hugging Face 2026-04-21 HF ↑2

収束進化:異なる言語モデルが類似した数値表現を学習する仕組み

自然言語テキストで学習した言語モデルは、周期T=2、5、10を主要周期とする周期的特徴を用いて数値を表現することが知られている。本論文では、これらの特徴に2階層の階層構造が存在することを明らかにした。Transformerや線形RNN(Linear RNN)、LSTM、古典的な単語埋め込み(word embeddings)といった多様なアーキテクチャは、フーリエ領域(Fourier domain)に周期Tのスパイクを持つ特徴を学習する一方、数値をmod-Tで線形分類可能な幾何学的分離可能特徴(geometrically separable features)を学習するモデルは一部に限られる。この非対称性を説明するため、フーリエドメインのスパース性はmod-T幾何学的分離可能性の必要条件であるが十分条件ではないことを理論的に証明した。さらに実験的に、データ・アーキテクチャ・オプティマイザ・トークナイザが幾何学的分離可能特徴の獲得に関与することを示し、多様なモデルが異なる学習信号から類似した特徴を獲得する「収束進化(convergent evolution)」現象を確認した。

企業動向 Microsoft Research 2026-04-22

AutoAdapt:大規模言語モデルの自動ドメイン適応

Microsoft Researchは、LLMを特定専門領域に自動適応させるフレームワーク「AutoAdapt」を発表した。法律・医療・クラウドインシデント対応などリスクの高い実務環境にLLMを展開する際、ドメイン固有の要件への適応が手動かつ低速で再現性に乏しいという課題があると指摘。AutoAdaptはこの「ドメイン適応」プロセスを自動化することで、専門領域における性能と信頼性の低下を防ぐことを目的としているとされる。従来は人手をかけなければ困難だったモデルのカスタマイズを体系化・自動化することで、高精度が求められる業務領域でのLLM実用化を大きく加速させる可能性があると主張している。企業や研究機関がLLMを本番環境に安全・効率的に導入するうえで、再現可能な適応パイプラインの確立に貢献すると見込まれる。

#llm
モデル OpenAI 2026-04-23

GPT-5.5 発表

OpenAIは同社最新モデル「GPT-5.5」を発表した。同社は本モデルを「これまでで最もスマートなモデル」と位置づけており、速度・性能の両面で従来モデルを上回るとしている。特にコーディング、リサーチ、データ分析といった複雑なタスクへの対応を重視して設計されており、複数のツールにまたがる作業においても高い実力を発揮することを想定した構成となっているという。GPT-5の後継・補完モデルとして位置づけられると見られ、処理速度の向上とマルチツール連携能力の強化が主要な差別化ポイントとして挙げられている。今回の発表により、AIアシスタントおよびエンタープライズ向けAIソリューション市場における競争がさらに激化するとともに、開発者やプロダクトチームにとっては高度な自動化・推論ワークフローの実現に向けた新たな選択肢が生まれると考えられる。

#coding
モデル OpenAI 2026-04-23

GPT-5.5 システムカード

OpenAIは、新モデル「GPT-5.5」のシステムカードを公開した。システムカードとはOpenAIが新モデルリリース時に発行する安全性評価レポートであり、モデルの能力・リスク・安全対策の評価結果を記述した文書である。今回の抜粋はタイトルと概要のみで詳細情報は限定的だが、GPT-5.5という名称はGPT-5とGPT-6の中間的な位置づけのモデルであることを示唆している。OpenAIはこれまでGPT-4oやo1シリーズなど多様なモデルを展開してきており、GPT-5.5はその系譜に連なる新世代モデルと見られる。システムカードの公開はモデル本体のリリースに前後して行われる慣例があり、業界・ユーザーへの透明性確保と規制当局への説明責任を果たす取り組みの一環とOpenAIは位置づけていると考えられる。

企業動向 OpenAI 2026-04-23

Codexの設定ガイド

OpenAIは、コーディングエージェント「Codex」の設定方法に関するドキュメントを公開した。本記事では、Codexをスムーズに運用するためのパーソナライゼーション設定、出力の詳細レベルの調整、および各種権限設定の構成方法について解説している。ユーザーは自身のワークフローに合わせてCodexの動作を細かくカスタマイズできるとされており、タスクの自動実行精度や安全性を高めるための権限管理も重要な要素として位置づけられている。こうした設定の柔軟性により、個人開発者から企業の開発チームまで幅広いユースケースへの適応が可能になると主張されており、AIコーディングエージェントの実運用における課題のひとつであった「制御性」の向上に寄与する内容となっている。

モデル OpenAI 2026-04-23

GPT-5.5 バイオ安全性バグバウンティ

OpenAIは、GPT-5.5を対象とした「Bio Bug Bounty」プログラムを発表した。これはバイオセーフティリスクに関するユニバーサルジェイルブレイク(安全制約の回避手法)を発見するレッドチーミングチャレンジであり、最大25,000ドルの報酬が用意されている。同プログラムは、生物兵器や危険な生物学的情報の生成を誘発できる汎用的な抜け穴を研究者やセキュリティ専門家が積極的に探索することを奨励する仕組みとなっている。AIモデルの安全性評価において外部の知見を活用するクラウドソーシング型アプローチを採用しており、OpenAIはこれにより生物学的リスクに特化した堅牢なガードレール構築を目指していると主張している。AIが高度化するなかで、バイオリスクは規制当局や研究機関が最も懸念する分野の一つとなっており、今回の取り組みは業界全体の安全基準策定にも影響を与える可能性があるとされる。

#alignment
ツール OpenAI 2026-04-22

臨床家のためにChatGPTをより良くする

OpenAIは、米国の認定済み医師・診療看護師・薬剤師を対象に、臨床業務特化版「ChatGPT for Clinicians」を無償提供すると発表した。対象ユーザーは職種の確認(verification)プロセスを経ることで利用資格を得る仕組みとなっており、臨床ケアの補助・医療文書作成・研究活動の三領域を主な用途として想定しているとされる。医療現場における生成AIの活用を正式にサポートする取り組みとして位置づけられており、ドキュメンテーション負荷の軽減や情報収集の効率化など、医療従事者の業務改善に寄与することが期待されるとブログは主張している。現時点では米国内の資格保有者に限定したサービスであり、対象職種や地域の拡大については明示されていない。

モデル OpenAI 2026-04-22

OpenAI Privacy Filter の紹介

OpenAIは、テキスト中の個人識別情報(PII)を検出・削除するオープンウェイトモデル「OpenAI Privacy Filter」を発表した。同モデルは最先端の精度でPIIを検出・リダクション(マスキング)する能力を持つとされており、オープンウェイト形式での提供が大きな特徴となっている。PIIの検出・除去は医療・金融・法務など個人情報を扱うあらゆる業種において不可欠な処理であり、高精度なモデルが公開ウェイトで利用可能になることで、企業がオンプレミス環境やプライベートクラウド上でのデータ前処理パイプラインに組み込みやすくなると主張している。プライバシー規制が強化される世界的な潮流の中、LLMへの入力データを安全化するインフラレイヤーとして業界全体に影響を与える可能性があるとしている。

論文 深掘り arXiv 2026-04-22

RespondeoQA:ラテン語・英語バイリンガル質問応答ベンチマーク

古典語LLM評価が標準化され、教育・人文系AIプロダクトの品質基準が整備されそう

本論文は、ラテン語と英語のバイリンガル設定における質問応答(Question Answering)および翻訳タスク向けのベンチマークデータセット「RespondeoQA」を提案する。約7,800件の質問・回答ペアから構成され、18世紀から現代に至るラテン語教育資料(試験問題・クイズボウル形式のトリビア・教科書)から収集された。データセットは知識・スキルベースの問題、マルチホップ推論、制約付き翻訳、混合言語ペアなど多様な問題タイプを包含する。知識の限りでは、ラテン語を中心とした初のQAベンチマークとされる。評価実験としてLLaMA 3、Qwen QwQ、OpenAI o3-miniの3モデルを検証した結果、いずれもスキル指向問題で性能が低下することが判明。推論モデルは韻律分析(scansion)や文学的技法タスクでは優位性を示すが、全体的な改善幅は限定的であった。本データセットは専門的な言語・文化ドメインにおけるモデル能力評価の新リソースとなり、他言語への応用も容易であると主張する。

#benchmark#llm
企業動向 OpenAI 2026-04-23

Codexとは何か?

OpenAIは、同社のソフトウェアエンジニアリング向けAIエージェント「Codex」について改めて解説するブログ記事を公開した。Codexは単なるチャット形式の対話にとどまらず、タスクの自動化・外部ツールとの連携・ドキュメントやダッシュボードといった実質的な成果物の生成までを担う点が特徴とされる。従来のコード補完ツールの枠を超え、開発ワークフロー全体をエンドツーエンドで支援するエージェント的アプローチを採用しているとブログは主張する。これにより、エンジニアの反復的作業を大幅に削減し、より創造的・設計的な業務に集中できる環境を実現するとしており、プロダクト開発の生産性向上に寄与する可能性があるとOpenAIは述べている。