ベンチマーク(AI)とは?
読み方: ベンチマーク
30秒まとめ
AIモデルの性能を標準化されたテストで客観的に比較・評価するための基準。
ベンチマーク(AI)の意味・定義
ベンチマーク(AI Benchmark)は、AIモデルの性能を客観的に測定・比較するための標準化されたテスト・評価基準です。LLMの主要ベンチマークとして、MMLU(多分野知識)、HumanEval(コード生成)、GSM8K(数学推論)、HellaSwag(常識推論)、MT-Bench(会話能力)、Chatbot Arena(人間による相対評価)などがあります。画像生成ではFIDスコア、動画生成ではVBenchが使われます。ベンチマークはモデル選択の重要な指標ですが、実際のユースケースでの性能と必ずしも一致しないことや、ベンチマーク最適化(ベンチマークハッキング)の問題も指摘されています。