論文 arXiv 発表: 2026-04-29

TIDE:拡散大規模言語モデルのためのクロスアーキテクチャ蒸留

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

著者: Gongbo Zhang, Wen Wang, Ye Tian, Li Yuan

要約

拡散大規模言語モデル(dLLM: Diffusion Large Language Model)は並列デコードと双方向コンテキストを持つが、競争力あるパフォーマンスには数十億パラメータが必要という課題がある。既存のdLLM向け蒸留手法は同一アーキテクチャ内での推論ステップ削減に留まり、教師・生徒間でアーキテクチャ・アテンション機構・トークナイザーが異なるクロスアーキテクチャ知識転送は未解決だった。本論文はTIDEという初のクロスアーキテクチャdLLM蒸留フレームワークを提案する。構成要素は3つ:(1) 訓練進捗と拡散タイムステップに応じて蒸留強度を調整するTIDAL、(2) 相補的マスク分割で重マスク時の予測精度を高めるCompDemo、(3) クロストークナイザー目的関数としてチャンクレベル尤度マッチングを反転させ勾配安定化を実現するReverse CALMである。8Bの密なモデルと16B MoEを教師として0.6B生徒モデルへ蒸留した結果、8ベンチマーク平均で1.53ポイントのベースライン超えを達成し、HumanEvalでは48.78(ARベースライン比+16.48)の大幅向上を示した。

筆者コメント

dLLMはLLaDA、MD-LMなどが代表的な手法であり、自己回帰(AR: Autoregressive)モデルに比べて推論の並列性が高い点が注目されているが、実用規模への圧縮が課題だった。本研究はその課題に対して蒸留(Knowledge Distillation)でアプローチした点が新規性の核心と見られる。特にトークナイザーが異なる教師・生徒間での蒸留は、ARモデルの世界でも難しい問題であり(SpectraやMiniLM系の研究でも議論されてきた)、Reverse CALMによる勾配安定化のアプローチは理論的に興味深い。一方、実務的な観点では0.6Bという生徒モデルの小ささが魅力であるが、日本語など多言語対応の評価がアブストラクトに見当たらず、日本語データへの適用時のトークナイザー不一致の影響は別途検証が必要と考えられる。コード生成での顕著な改善(HumanEval +16pt超)は実用上の価値が高いが、再現性の観点ではTIDAL・CompDemo・Reverse CALMの三要素のアブレーション詳細や学習コストの開示が論文本文で確認できるかどうかが重要だろう。dLLMが主流に近づくにつれ、こうしたクロスアーキテクチャ蒸留の重要性は増すと考えられる。

※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。

#llm#diffusion#coding#benchmark

同じカテゴリの記事