Speculative Decodingとは?
読み方: スペキュレイティブデコーディング
30秒まとめ
小型モデルで下書き生成し大型モデルで検証する推論高速化手法。品質を保ちつつ2-3倍高速化。
Speculative Decodingの意味・定義
Speculative Decoding(投機的デコーディング)は、LLMの推論速度を大幅に向上させる技術です。通常、LLMはトークンを1つずつ順番に生成するため時間がかかりますが、Speculative Decodingでは小型の「ドラフトモデル」が複数トークンを高速に生成し、大型の「ターゲットモデル」がそれを一括検証・修正します。ドラフトが正しければそのまま採用され、間違っていれば大型モデルが修正するため、出力品質は大型モデル単体と同等を維持しつつ、推論速度が2〜3倍向上します。Google、Anthropic、Metaなどが自社モデルに実装しており、リアルタイムアプリケーションでの実用性を高めています。