潜在埋め込み空間におけるシーケンス圧縮:大規模言語モデルのためのKトークンマージング
Compressing Sequences in the Latent Embedding Space: $K$-Token Merging for Large Language Models
要約
大規模言語モデル(LLM)は長いプロンプトを処理する際、自己注意機構(self-attention)の計算量が入力長の二乗に比例して増大するため、計算・メモリコストが深刻な課題となっている。既存のプロンプト圧縮手法はトークン空間での操作が主流であり、潜在埋め込み空間(latent embedding space)における非効率性を見逃していると筆者らは指摘する。本論文ではK-Token Mergingを提案する。これは連続するKトークンの埋め込みを軽量エンコーダで単一の埋め込みに統合する潜在空間圧縮フレームワークである。圧縮後のシーケンスはLoRAで適応済みのLLMが処理し、テキスト生成は元の語彙(vocabulary)のまま行われる。構造的推論・感情分類・コード編集の3タスクでの実験により、K-Token Mergingは性能と圧縮率のパレートフロンティア上に位置し、入力長を最大75%削減しつつ性能劣化を最小限に抑えることが示されたとしている。
筆者コメント
本手法はトークン空間での圧縮(例:LLMLinguaシリーズや選択的トークン削除)とは異なり、埋め込み空間で連続ブロックをマージするアプローチを取る点が差別化ポイントと見られる。Vision Transformerのコンテキストで提案されたToken Merging(ToMe)との思想的類似性があると考えられるが、LLMの自己回帰生成に適合させる設計の工夫(LoRA適応と語彙維持)が核心的貢献と読める。実務応用の観点では、RAGや長文要約など長コンテキストが常態化するユースケースでのKVキャッシュ削減効果が期待できる一方、K個のトークンを等間隔にマージする設計が言語的な境界(文節・文・段落)を無視する可能性があり、特に日本語のような形態論的に複雑な言語では英語以上に情報損失リスクが高まる懸念がある。また軽量エンコーダの学習データ依存性やLoRAのrank設定が再現性に影響する可能性があり、オープンソース公開の有無も実用上の重要な確認ポイントと考えられる。75%圧縮での性能保証がどのタスク難度・ドメインまで成立するかは論文本文の精査が必要だろう。
※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。