Zero-to-CAD: 実データなしで百万規模の解釈可能なCADプログラムをエージェント的に合成する
Zero-to-CAD: Agentic Synthesis of Interpretable CAD Programs at Million-Scale Without Real Data
要約
背景・課題として、CAD(Computer-Aided Design)モデルは構築履歴(パラメトリックな設計意図)を持つが、既存の大規模3Dデータセットはほぼ境界表現(B-Rep)やメッシュで構成されており、この手続き的情報が失われている。本研究ではZero-to-CADを提案し、実行可能なCAD構築シーケンスをスケーラブルに合成するフレームワークを構築する。提案手法では合成をエージェント的探索問題として定式化し、大規模言語モデル(LLM)をフィードバック駆動のCAD環境に組み込み、ツールやドキュメント参照を活用しながらコードの生成・実行・検証を反復する。これにより、スケッチ&押し出し操作を超えた多様な操作語彙を含む約100万件の実行可能・可読・編集可能なCADシーケンスを合成した。高品質な10万件のサブセットも公開される。有用性の実証として、合成データでビジョン言語モデルをファインチューニングし、マルチビュー画像から編集可能なCADプログラムを再構築するタスクでGPT-5.2を含む強力なベースラインを上回る成果を示した。
筆者コメント
CADの逆設計(Reverse Engineering)分野では、DeepCADやHSNetといった先行研究がシーケンスモデリングに取り組んできたが、いずれも実際の設計履歴データの希少性という壁に直面していた。本研究はその壁を「実データゼロ」で突破しようとする点が最も特筆すべき貢献と考えられる。LLMをCAD実行環境に組み込んだフィードバックループという構成はコード生成エージェントの応用として自然な発展形だが、幾何学的妥当性の検証を自動化しながら百万規模まで到達した点はスケールの面で際立っている。実務面では、製造業の日本企業がFusion 360やFreeCADなどのCADツールと組み合わせて活用できる可能性がある一方、合成データ固有のドメインギャップや、業界固有の設計慣習(例:JIS規格に基づく部品形状)への対応は未知数と見られる。また、百万件の合成に要するLLM推論コストや、公開モデルの商用利用ライセンスは再現・利用前に確認が必要だろう。GPT-5.2を超えるという主張は注目に値するが、評価指標や比較条件の詳細を論文本文で精査することが実用判断には不可欠と考えられる。
※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。