論文 Hugging Face 発表: 2026-04-19 HF ↑2

MathNet：数学的推論と検索のためのグローバルマルチモーダルベンチマーク

MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

著者: Shaden Alshammari, Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei ほか3名

要約

大規模言語モデル・マルチモーダルモデル（multimodal model）の数学的推論評価において、既存ベンチマークはデータ規模・言語カバレッジ・タスク多様性の面で限界があった。本論文ではMathNetを提案する。MathNetは47か国・17言語・20年以上の数学オリンピック問題を網羅した大規模多言語マルチモーダルデータセットであり、30,676件の専門家作成問題と解答を含む。生成モデルの数学的推論評価と埋め込みベース検索システム（embedding-based system）の評価を兼ねるベンチマークとして、(i)問題解答、(ii)数学対応検索（Math-Aware Retrieval）、(iii)検索拡張問題解答（Retrieval-Augmented Problem Solving）の3タスクを設定した。実験の結果、最先端推論モデルでもGemini-3.1-Proが78.4%、GPT-5が69.3%にとどまり課題が残ることが示された。また検索品質がRAG性能に大きく影響し、DeepSeek-V3.2-Speciale では最大12%の向上が確認された。データセットとベンチマークは公開済みである。

筆者コメント

MathNetの最大の貢献は、数学的推論ベンチマークに「数式レベルの意味的等価性を考慮した検索評価」を初めて組み込んだ点と考えられる。従来のMATH・AIME・OmniMATHなどのベンチマークは問題解答精度のみを対象としており、RAGパイプラインの検索品質評価は手つかずだった。本研究はその空白を埋める位置づけにある。実務面では、数学教育プラットフォームや試験対策AIへの応用が見込まれるが、日本語問題については17言語中の1言語として含まれていると推測される一方、日本固有の数学教育文脈（高校数学の体系や大学入試問題のスタイル）との齟齬が生じる可能性がある。再現性の面では、問題の著作権管理（各国の数学オリンピック主催団体との権利関係）が商用利用上の懸念となりうる。また、GPT-5でも約30%の誤答が残るという結果は、現状の最先端モデルが「記号操作の正確性」より「証明論理の追跡」で苦戦していることを示唆していると見られ、今後のモデル改善の方向性を指し示す意義あるデータポイントと言えるだろう。

※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。

#benchmark#multimodal#rag

MathNet：数学的推論と検索のためのグローバルマルチモーダルベンチマーク

要約

筆者コメント

同じカテゴリの記事

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合