ベンチマーク（AI）とは？

読み方: ベンチマーク

30秒まとめ

AIモデルの性能を標準化されたテストで客観的に比較・評価するための基準。

ベンチマーク（AI）の意味・定義

ベンチマーク（AI Benchmark）は、AIモデルの性能を客観的に測定・比較するための標準化されたテスト・評価基準です。LLMの主要ベンチマークとして、MMLU（多分野知識）、HumanEval（コード生成）、GSM8K（数学推論）、HellaSwag（常識推論）、MT-Bench（会話能力）、Chatbot Arena（人間による相対評価）などがあります。画像生成ではFIDスコア、動画生成ではVBenchが使われます。ベンチマークはモデル選択の重要な指標ですが、実際のユースケースでの性能と必ずしも一致しないことや、ベンチマーク最適化（ベンチマークハッキング）の問題も指摘されています。

ベンチマーク（AI）とは？

30秒まとめ

ベンチマーク（AI）の意味・定義

関連するAIツール

ChatGPT

Claude

Gemini

関連する用語

運営者が開発したAIマーケティングツール

MixCast

AIOPulse

UGCast