ベンチマークとは？

読み方: ベンチマーク

30秒まとめ

AIモデルの性能を客観的に比較・評価するための標準的なテストや指標のこと。

ベンチマークの意味・定義

ベンチマーク（Benchmark）は、AIモデルの性能を客観的に測定・比較するための標準化されたテストや評価基準です。代表的なベンチマークとして、MMLU（大学レベルの知識を測定）、HumanEval（プログラミング能力を評価）、GPQA（大学院レベルの科学的推論）、MATH（数学的問題解決力）などがあります。新しいモデルがリリースされる際には、これらのベンチマークスコアが公開され、他モデルとの性能比較に利用されます。ただし、ベンチマークのスコアが高くても実用性が伴わない場合もあり、実際のタスクでの性能（Real-world Performance）も重要な評価軸です。

ベンチマークとは？

30秒まとめ

ベンチマークの意味・定義

関連するAIツール

ChatGPT

Claude

Gemini

関連する用語

運営者が開発したAIマーケティングツール

MixCast

AIOPulse

UGCast