論文 arXiv 発表: 2026-04-20

MathNet: 数学的推論と検索のためのグローバルなマルチモーダルベンチマーク

MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

著者: Shaden Alshammari, Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei ほか3名

要約

数学的問題解決は大規模言語モデル・マルチモーダルモデル（LLM/MLM）の推論能力を測る困難なタスクであるが、既存のベンチマークはデータ規模・言語カバレッジ・タスク多様性の面で限界があった。本論文はMathNetを提案する。これは47カ国・17言語・20年分の数学オリンピック問題を網羅した大規模マルチモーダル・多言語データセットであり、30,676件の専門家執筆の問題と解答を含む。さらに、数学的に同値または構造的に類似した問題ペアを人手でキュレーションした検索ベンチマークも構築している。MathNetは(i)問題解答、(ii)数学特化型検索（Math-Aware Retrieval）、(iii)検索拡張型問題解答（RAG）の3タスクをサポートする。実験の結果、最先端の推論モデルでもGemini-3.1-Proで78.4%、GPT-5で69.3%にとどまり、埋め込みモデルの同値問題検索も困難であることが示された。また、RAG性能は検索品質に大きく依存し、DeepSeek-V3.2-Specialeは最大12%の改善を達成した。データセットとベンチマークは公開されている。

筆者コメント

数学的推論ベンチマークとしてはMATH、AIME、OlympiadBenchなどが先行するが、MathNetはオリンピックレベルの問題を47カ国・17言語規模で統合した点で質・量ともに従来を大幅に上回ると見られる。特に「数学的検索（Mathematical Retrieval）」を独立タスクとして初めてベンチマーク化した点は新規性が高く、RAGと数学推論を結びつける研究潮流において重要な貢献となりうる。実務応用の観点では、検索拡張によって最大12%の性能向上が確認されており、社内数学ライブラリや教育プラットフォームへのRAG統合に示唆を与える結果と言える。一方、日本語データが17言語の一つとして含まれる可能性はあるが、日本固有の数学コンテスト問題の割合や質については論文本文を確認しないと不明であり、日本語タスクでの性能評価には別途検証が必要と考えられる。また、MITのチームが公開するデータセットであることからライセンス面の透明性は期待できるが、商用利用可否については確認が必要だろう。GPT-5やGemini-3.1-Proでも正答率が8割未満という結果は、オリンピック数学が依然としてAIにとって難関であることを示しており、今後の推論モデル開発における試金石として広く活用されることが予想される。

※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。

#benchmark#multimodal#rag

MathNet: 数学的推論と検索のためのグローバルなマルチモーダルベンチマーク

要約

筆者コメント

同じカテゴリの記事

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合