ベンチマークとは?
読み方: ベンチマーク
30秒まとめ
AIモデルの性能を客観的に比較・評価するための標準的なテストや指標のこと。
ベンチマークの意味・定義
ベンチマーク(Benchmark)は、AIモデルの性能を客観的に測定・比較するための標準化されたテストや評価基準です。代表的なベンチマークとして、MMLU(大学レベルの知識を測定)、HumanEval(プログラミング能力を評価)、GPQA(大学院レベルの科学的推論)、MATH(数学的問題解決力)などがあります。新しいモデルがリリースされる際には、これらのベンチマークスコアが公開され、他モデルとの性能比較に利用されます。ただし、ベンチマークのスコアが高くても実用性が伴わない場合もあり、実際のタスクでの性能(Real-world Performance)も重要な評価軸です。