論文 Hugging Face 発表: 2026-04-19 HF ↑1

マルチモーダルLLMにおける掛け算：テキスト・画像・音声入力での計算能力評価

Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs

著者: Samuel G. Balter, Ethan Jerzak, Connor T. Jerzak

要約

マルチモーダルLLM（大規模言語モデル）は数値を各モダリティで認識できるが、同一の掛け算問題を数字・英単語・画像・音声で提示した場合に正確な多桁乗算が困難になるという課題がある。既存ベンチマークはモダリティ間で対応づけられたサンプルが少なく、比較が困難だった。本研究では桁数・桁の疎密性・表現形式・モダリティを組み合わせた制御済みマルチモーダル乗算ベンチマークを構築し、「算術負荷（arithmetic load）C」を全桁数と非ゼロ桁数の積として定義した。評価の結果、Cが増大すると精度が急落しC>100でほぼゼロになること、CはR²>0.5でモデル・モダリティをまたいで性能を予測できること、精度低下の主因は知覚ではなく計算処理にあること（知覚確認では99%超の正解率）が示された。さらにforced-completion loss probeにより、モデルは分配則分解を好む傾向があるが、ヒューリスティック固有のLoRAアダプタは精度を低下させ、ベースモデルが内部ルータを持つことが示唆された。

筆者コメント

本研究の最大の貢献は、マルチモーダルLLMの算術失敗を「知覚の限界」と「計算の限界」に分離した点だと考えられる。従来の研究では画像やテキストで数値認識に失敗するのか、計算自体に失敗するのかが混在していたが、本論文はその切り分けを実験的に行った点で方法論的に価値が高い。算術負荷CがR²>0.5という単純な指標で性能予測できるという知見は、実務上のモデル選定やタスク設計においても有用な指針になり得る。日本語LLMへの適用を考えると、漢数字（「百二十三」など）という追加的な表現形式が存在するため、表現多様性の問題はさらに複雑になると見られる。日本語音声での数値認識と計算の組み合わせは、ほぼ未検証領域と考えられ、応用上の注意が必要だろう。 LoRAアダプタがヒューリスティックを強化しても精度が下がるという知見は、ファインチューニングによる算術能力改善の難しさを示しており、RAGや外部計算ツールとの組み合わせが現実的な解決策と見られる。再現性についてはベンチマーク生成器が公開されているとのことで、追試しやすい点も評価できる。

※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。

#multimodal#llm#benchmark

マルチモーダルLLMにおける掛け算：テキスト・画像・音声入力での計算能力評価

要約

筆者コメント

同じカテゴリの記事

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合