推論(Inference)とは?
読み方: スイロン
30秒まとめ
学習済みAIモデルが新しい入力に対して予測・回答を出力するプロセス。
推論(Inference)の意味・定義
推論(Inference)は、学習(Training)が完了したAIモデルが、新しい入力データに対して予測や出力を生成するプロセスです。ChatGPTに質問して回答を得る、Stable Diffusionにプロンプトを入力して画像を生成するといった操作は、すべて推論にあたります。推論の速度(レイテンシ)とコストはAIサービスの品質に直結するため、最適化が重要です。GPU、TPU、NPUなどの専用ハードウェア、量子化やモデル蒸留による軽量化、バッチ処理、キャッシュ機構、投機的デコーディングなど、さまざまな高速化技術が開発されています。クラウドでの推論(OpenAI API等)とエッジでの推論(Ollamaでのローカル実行等)ではコスト構造が異なり、用途に応じた使い分けが求められます。推論コストの削減はAIサービスの普及における重要な課題であり、より効率的な推論技術の開発が活発に進められています。