2026-04-30

17件

← アーカイブ一覧

論文 深掘り Hugging Face 2026-04-28 HF ↑70

GLM-5V-Turbo:マルチモーダルエージェントのためのネイティブ基盤モデルへの取り組み

マルチモーダル知覚を「後付け」から「中核」へ転換するエージェント設計が実装標準になりそう

本報告では、マルチモーダルエージェント(multimodal agent)向けのネイティブ基盤モデル(native foundation model)を目指すGLM-5V-Turboを紹介する。基盤モデルが実環境に展開されるにつれ、エージェントの能力は言語推論だけでなく、画像・動画・Webページ・文書・GUI(グラフィカルユーザーインターフェース)などの異質なコンテキストを知覚・解釈・操作する能力にも依存する。GLM-5V-Turboはこの目的を中心に構築されており、マルチモーダル知覚を言語モデルへの補助的インターフェースとしてではなく、推論・計画・ツール利用・実行の中核コンポーネントとして統合している。モデル設計、マルチモーダル訓練、強化学習(reinforcement learning)、ツールチェーン拡張、エージェントフレームワーク統合における主要改善をまとめ、マルチモーダルコーディング・視覚的ツール利用・フレームワーク型エージェントタスクで高い性能を達成しつつ、テキスト専用コーディング能力も維持していると主張する。

#multimodal#agent#coding#rl
論文 深掘り Hugging Face 2026-04-28 HF ↑33

ClawGym:効果的なClawエージェント構築のためのスケーラブルフレームワーク

ローカルPC操作エージェントの自社訓練が、中小スタートアップでも現実的な選択肢になりそう

ローカルファイルやツール、永続的なワークスペース状態を扱うマルチステップワークフロー環境「Claw式環境」において、エージェント開発を体系化するフレームワークが不足していた。本研究ではClawGymを提案し、個人エージェントの開発ライフサイクル全体を支援する。具体的には、ペルソナ駆動の意図とスキルに基づく操作から合成された1万3500件のタスクデータセット「ClawGym-SynData」を構築し、リアルなモックワークスペースとハイブリッド検証機構を組み合わせた。さらに、ブラックボックスのロールアウト軌跡に対する教師ありファインチューニング(supervised fine-tuning)によってClawGym-Agentsを訓練し、タスクごとのサンドボックスで並列ロールアウトを行う軽量パイプラインによる強化学習(reinforcement learning)も探索した。評価基盤として自動フィルタリングと人間・LLM協調レビューにより較正された200インスタンスのベンチマーク「ClawGym-Bench」も構築している。

#agent#llm#rl#fine-tuning#benchmark
論文 深掘り Hugging Face 2026-04-28 HF ↑35

TIDEで潮目を変える:拡散大規模言語モデルのクロスアーキテクチャ蒸留

dLLMの小型化加速で、並列推論モデルがエッジ・モバイルへ普及する布石になりそう

拡散大規模言語モデル(dLLM: Diffusion Large Language Model)は並列デコードと双方向コンテキストという優位性を持つが、競争力を発揮するには数十億パラメータ規模が必要という課題がある。既存の蒸留手法は同一アーキテクチャ内での推論ステップ削減にとどまり、アーキテクチャ・アテンション機構・トークナイザーが異なる教師から生徒へのクロスアーキテクチャ知識転移は未開拓だった。本研究はTIDEを提案する。TIDEは三つのモジュールで構成される:学習進捗と拡散タイムステップに応じて蒸留強度を調整するTIDAL、マスク補完分割で重マスク時の教師予測を改善するCompDemo、クロストークナイザー目標関数でチャンク単位尤度マッチングを反転させ勾配を安定化させるReverse CALMである。8BのDenseモデルと16BのMoEモデルを教師として0.6Bの生徒モデルに蒸留した結果、8つのベンチマーク平均で1.53ポイント向上し、HumanEvalでは48.78(ARベースライン32.3)を達成したと主張する。

#llm#diffusion#coding#benchmark
論文 Hugging Face 2026-04-28 HF ↑2

非同期デノイジングによる映像事前知識を用いた統合4D世界行動モデリング

ロボット工学における世界モデル(world model)研究では、リアルタイムの行動生成と高品質な世界表現の両立が課題とされてきた。従来の統合世界モデル(UWM等)は2次元ピクセル空間のみを扱い、行動効率と世界モデリング品質のバランスが不十分であった。本研究ではX-WAMと呼ぶ統合4D世界モデルを提案する。事前学習済みの映像拡散モデル(video diffusion model)の視覚的事前知識を活用し、マルチビューRGB-D映像を予測することで将来の世界を想像する。軽量な構造適応として、事前学習済み拡散トランスフォーマー(Diffusion Transformer)の最終ブロック群を深度予測ブランチに複製し、空間情報を効率的に取得する。さらに非同期ノイズサンプリング(Asynchronous Noise Sampling; ANS)を提案し、推論時に行動を少ないステップで高速デコードしつつ、映像生成には全ステップを充てる非同期スケジュールを適用する。5,800時間超のロボットデータで事前学習したX-WAMは、RoboCasaおよびRoboTwin 2.0ベンチマークでそれぞれ79.2%・90.7%の平均成功率を達成し、4D再構成・生成でも既存手法を上回ると主張している。

#robotics#diffusion#coding#benchmark
論文 Hugging Face 2026-04-28 HF ↑3

システム統合型Speculative DecodingによるRL後学習ロールアウトの高速化

大規模言語モデル(LLM)のRL後学習(RL post-training)において、自己回帰的なロールアウト生成がボトルネックとなっている。既存の効率化手法はオフポリシー実行やリプレイ、低精度生成などでスループット改善を図るが、出力分布を変えてしまう場合がある。本研究ではSpeculative Decoding(投機的デコーディング)をロスレスな加速プリミティブとして活用し、ターゲットモデルの出力分布を保持しながらRLロールアウトを高速化する手法を提案する。vLLMバックエンドを持つNeMo-RLに実装し、同期・非同期パイプラインの両方に対応。事前学習済みMTPヘッドや小規模ドラフトモデル、Eagle3などの投機機構を幅広くサポートする。8Bスケールの同期RL環境下で推論後学習ワークロードにおいてロールアウトスループットが1.8倍に向上し、高忠実度シミュレータによる試算では235Bスケールで非同期RLと組み合わせると最大2.5倍のエンドツーエンド学習高速化が見込めると報告している。

#rl#coding#llm
企業動向 Microsoft Research 2026-04-30

エージェントネットワークのレッドチーミング:AIエージェントが大規模に相互作用するとき何が壊れるか

Microsoft Researchは、AIエージェント同士が相互接続・連携する「マルチエージェントシステム」におけるセキュリティリスクを検証したブログ記事を公開した。個々のエージェントが安全に設計されていても、それらが組み合わさったエコシステム全体が安全とは限らないという問題意識のもと、エージェント間の相互作用によって生じる新たな脆弱性や障害パターンを分析している。従来の単体エージェントを対象としたレッドチーミング手法では捉えられないネットワークレベルのリスクが存在するとし、それに対応するための新たなアプローチの必要性を主張している。マルチエージェントAIの実用化が加速する中、開発者・セキュリティ研究者双方にとって見落としがちなシステム全体の安全性評価の重要性を提起する内容と言える。

#agent
論文 arXiv 2026-04-29

ViCrop-Det: 空間アテンションエントロピー誘導クロッピングによるトレーニング不要な小物体検出

Transformerベースのアーキテクチャは大域的な意味把握において主流となっているが、自然画像に内在する空間的不均質性により局所特徴が劣化するという根本的な制約がある。特に、情報密度の異なる領域に一様な受容野を適用することで、微小物体が密集する領域での検出精度が低下する。この課題に対し、本論文ではViCrop-Detという学習不要な推論フレームワークを提案する。異常セグメンテーションにおけるアテンションエントロピーの活用から着想を得て、検出デコーダのクロスアテンション分布を内在的プローブとして利用する。空間アテンションエントロピー(SAE)を用いて局所的な空間的曖昧性を評価し、物体の顕著性と認知的不確実性がともに高い領域に固定の計算バジェットを動的に割り当てる。VisDroneおよびDOTA-v1.5での評価ではRT-DETR-R50およびDeformable DETRに対して+1〜3 mAP@50の向上を達成し、レイテンシのオーバーヘッドは20〜23%に留まると主張している。

#benchmark
論文 arXiv 2026-04-29

信頼性の高い臨床トリアージのためのドメイン適応済み小型言語モデル

救急部門における緊急度指数(Emergency Severity Index: ESI)の正確な割り当ては、自由記述形式のトリアージ文書の多様性により、誤トリアージやワークフロー非効率を招く課題が続いている。本研究では、オープンソースの小型言語モデル(Small Language Model: SLM)がプライバシーを保護しつつ信頼性の高いトリアージ意思決定支援ツールとして機能するかを検証した。複数のSLMを多様なプロンプトパイプラインで比較した結果、トリアージ記録を簡潔にまとめた「臨床ビネット」が最も高い予測精度をもたらすことが判明した。特にQwen2.5-7Bが精度・安定性・計算効率の最良バランスを示した。専門家監修データおよびシルバー標準の小児トリアージデータを用いた大規模ドメイン適応により、ファインチューニング済みQwen2.5-7BはすべてのベースラインSLMおよびGPT-4oを含む大型商用モデルを上回り、臨床的に重大な誤分類を大幅に削減したと報告している。

#fine-tuning#llm#benchmark
モデル DeepMind 2026-04-30

AIコクリニシャンで医療の新モデルを実現する

Googleは、医療現場における人工知能の活用を推進する「AI co-clinician(AIコクリニシャン)」の研究と開発について発表した。このブログでは、AIを医師の補助役として位置づけ、診断支援や臨床判断の質向上を目指す「AI拡張型医療」への道筋が示されている。AIコクリニシャンは、単なる情報検索ツールにとどまらず、臨床医と協調しながら患者ケアを支える共同実践者として機能することが想定されており、医師の認知的負担を軽減しつつ医療の質と安全性を高める役割を担うとされる。この取り組みは、医師不足や医療コストの増大といった業界全体の課題解決に貢献し得るとGoogleは主張しており、医療AIの実用化に向けた重要な研究フェーズとして位置づけられていると考えられる。

企業動向 OpenAI 2026-04-29

インテリジェンス時代のコンピュートインフラを構築する

OpenAIは、AGI(汎用人工知能)の実現を見据えたコンピュートインフラ構築プロジェクト「Stargate」のスケールアップを発表した。急増するAI需要に対応するため、新たなデータセンター容量を追加し、大規模な計算基盤の整備を進めているとしている。Stargateはもともと米国内での大規模AI投資計画として位置づけられており、今回の拡張はその一環とみられる。同社はこのインフラ整備が、より高度なAIモデルの開発・運用を支えるだけでなく、AI業界全体の需要増大に応えるものであると主張している。大規模なデータセンター投資は、モデルのトレーニングから推論コストの低減まで幅広い効果をもたらすと期待されており、エンタープライズ向けサービスの安定供給や新モデルの早期投入にも寄与するとされる。

企業動向 OpenAI 2026-04-29

インテリジェンス時代におけるサイバーセキュリティ

OpenAIは「インテリジェンス時代」におけるサイバーセキュリティ強化に向けた5つの柱からなるアクションプランを発表した。このプランは、AIを活用したサイバー防御の民主化と重要インフラの保護を主な目的としている。具体的には、AI技術をセキュリティ分野に広く普及させることで、従来は大規模組織のみが享受できていた高度な防御能力を、中小規模の組織や個人にも提供可能にすることを目指すとしている。OpenAIはAIが攻撃者にも悪用されうるリスクを認識しつつも、防御側に有利な形でAIの力を活かす枠組みを構築することが業界全体の課題であると主張している。このアクションプランの公表は、AI企業が単なる技術提供者にとどまらず、サイバーセキュリティの政策・規範形成においても積極的な役割を担おうとする姿勢を示すものと捉えられる。

論文 深掘り arXiv 2026-04-29

深層トランスフォーマーモデルにおける確率的スケーリング極限とノイズによる同期現象

トランスフォーマーの「なぜ学習できるか」に確率論的証明が与えられ、設計哲学が変わるかもしれない

本論文は、有限深度・有限幅のトランスフォーマーモデル(MLP блоки含む)において、トークンの層ごとの発展が連続時間の確率的相互作用粒子系(stochastic interacting particle system)に経路収束(pathwise convergence)することを数学的に証明する。さらに、トークン分布の発展を記述する確率偏微分方程式(SPDE)を特定し、トークン数が大きい場合の「カオスの伝播(propagation of chaos)」を証明する。導出した境界は定量的であり、考慮する極限は可換性を持つ。加えて、共通ノイズ(common noise)が決定論的な自己注意ドリフト(self-attention drift)に対して十分強い場合、極限確率モデルが「ノイズによる同期(synchronization by noise)」を示し、相互作用エネルギーの指数的散逸が平均的に成立することを証明する。最後に、この条件を満たす活性化関数のクラスを特徴づける。

論文 深掘り arXiv 2026-04-29

推論中のいつ検索すべきか:大規模推論モデルのための適応的検索

「いつ検索するか」を推論中に判断するRAGが、o1系モデルの実用化コストを大幅に下げる可能性がある

大規模推論モデル(DeepSeek-R1、OpenAI o1など)は数千トークンにわたる思考連鎖(Chain of Thought)を生成するが、既存の検索拡張生成(RAG)との統合には根本的なミスマッチがある。既存RAGは「推論開始前」にコンテキストを提供するよう最適化されており、推論途中への証拠注入には対応していない。本研究では「ReaLM-Retrieve」という推論認識型検索フレームワークを提案する。①推論ステップ粒度で知識ギャップを検出するステップレベル不確実性検出器、②外部証拠が推論に最も貢献するタイミングを学習する検索介入ポリシー、③ナイーブな統合比で3.2倍の効率化を実現する統合機構、の3つが核心。MuSiQue・HotpotQA・2WikiMultiHopQAでの実験では、標準RAGに対して平均10.1%の回答F1改善を達成しつつ、IRCoTなど固定間隔アプローチと比べ検索呼び出しを47%削減した。

#rag#benchmark
モデル OpenAI 2026-04-30

高度なアカウントセキュリティの導入

Anthropicは、アカウント保護を強化する新機能「Advanced Account Security」を発表した。主な内容は、フィッシング耐性を持つログイン機能、より堅牢なアカウント回復プロセス、そして機密データの保護とアカウント乗っ取り防止を目的とした拡張保護機能の3点である。フィッシング耐性のあるログインはFIDO2/パスキーなどの技術を活用しているものと推察され、パスワードベースの認証に比べてソーシャルエンジニアリング攻撃への耐性が大幅に向上するとされる。企業や開発者がClaudeのAPIやコンソールを利用する場面が拡大する中、アカウント侵害リスクへの対応が急務となっており、本機能の導入によってエンタープライズ顧客が安心してAnthropicのサービスを採用しやすくなると同社は主張している。AIサービスの業務利用が加速する業界全体において、セキュリティ基盤の整備は競争力の重要な要素になりつつある。

企業動向 NVIDIA 2026-04-30

Nemotron Labs:OpenClawエージェントが全組織にもたらす意味

NVIDIAのNemotron Labsは、オープンソースのAIエージェントフレームワーク「OpenClaw」が2026年初頭にGitHubスター数10万件を突破したことを報告している。開発者コミュニティからの急速な支持を背景に、同プロジェクトはエンタープライズ向けAIエージェント開発の有力な選択肢として台頭しつつあるという。OpenClawの特徴は、組織規模を問わず導入可能なオープンソースベースの設計にあり、独自カスタマイズや自社インフラへの統合を容易にする点が強みとされる。ブログでは、このエージェント基盤が業務自動化や意思決定支援など幅広いユースケースに対応できると主張しており、クローズドなAPIサービスに依存せずAIエージェントを内製化したい企業にとって重要な選択肢になり得ると示唆している。

#agent
論文 arXiv 2026-04-29

TIDE:拡散大規模言語モデルのためのクロスアーキテクチャ蒸留

拡散大規模言語モデル(dLLM: Diffusion Large Language Model)は並列デコードと双方向コンテキストを持つが、競争力あるパフォーマンスには数十億パラメータが必要という課題がある。既存のdLLM向け蒸留手法は同一アーキテクチャ内での推論ステップ削減に留まり、教師・生徒間でアーキテクチャ・アテンション機構・トークナイザーが異なるクロスアーキテクチャ知識転送は未解決だった。本論文はTIDEという初のクロスアーキテクチャdLLM蒸留フレームワークを提案する。構成要素は3つ:(1) 訓練進捗と拡散タイムステップに応じて蒸留強度を調整するTIDAL、(2) 相補的マスク分割で重マスク時の予測精度を高めるCompDemo、(3) クロストークナイザー目的関数としてチャンクレベル尤度マッチングを反転させ勾配安定化を実現するReverse CALMである。8Bの密なモデルと16B MoEを教師として0.6B生徒モデルへ蒸留した結果、8ベンチマーク平均で1.53ポイントのベースライン超えを達成し、HumanEvalでは48.78(ARベースライン比+16.48)の大幅向上を示した。

#llm#diffusion#coding#benchmark
論文 arXiv 2026-04-29

ClawGym: 効果的なClawエージェント構築のためのスケーラブルなフレームワーク

ローカルファイルやツール、永続的なワークスペース状態を扱うマルチステップのClaw型環境は、パーソナルエージェント開発において重要な舞台となっているが、検証可能な訓練データの合成やエージェント学習・評価を統合した体系的フレームワークが欠如しており、スケーラブルな開発が妨げられてきた。本論文ではこの課題に対し、Claw型パーソナルエージェントの全開発ライフサイクルを支援するフレームワーク「ClawGym」を提案する。具体的には、ペルソナ駆動のインテントとスキルに基づく操作から合成された1万3500件のフィルタリング済みタスクデータセット「ClawGym-SynData」を構築し、リアルなモックワークスペースとハイブリッド検証機構を組み合わせる。続いてブラックボックスのロールアウト軌跡に対するSFT(supervised fine-tuning)でClawGym-Agentsを訓練し、タスクごとのサンドボックスで並列ロールアウトを行う軽量パイプラインによる強化学習も探索する。さらに自動フィルタリングと人間-LLMレビューで調整した200インスタンスのベンチマーク「ClawGym-Bench」を構築し、信頼性の高い評価基盤を提供する。

#agent#llm#rl#fine-tuning#benchmark