量子化(Quantization)とは?

読み方: リョウシカ

30秒まとめ

モデルの数値精度を下げてサイズを縮小し、少ないメモリでの実行を可能にする技術。

量子化(Quantization)の意味・定義

量子化(Quantization)は、AIモデルの重みパラメータの数値精度を下げる(例:32bit浮動小数点→4bit整数)ことで、モデルサイズとメモリ使用量を大幅に削減する技術です。70Bパラメータの大規模LLMでも、4bit量子化により一般的なGPU1枚(VRAM 24GB程度)で動作可能になります。GPTQ、AWQ、GGUF(llama.cpp)などの量子化手法が広く使われており、特にGGUF形式はCPUでの推論にも対応しているため、GPU不要でLLMを動かしたいユーザーに人気です。精度の低下は避けられませんが、4〜5bit量子化であれば元モデルの性能を大きく損なわないことが多いです。

関連するAIツール

関連する用語

運営者が開発したAIマーケティングツール