量子化(Quantization)とは?
読み方: リョウシカ
30秒まとめ
AIモデルの数値精度を下げてファイルサイズと計算コストを削減する技術。
量子化(Quantization)の意味・定義
量子化(Quantization)は、AIモデルのパラメータ(重み)の数値精度を下げることで、モデルのファイルサイズを縮小し、推論速度を向上させる最適化技術です。例えば、通常は32ビット浮動小数点(FP32)で表現されるパラメータを、16ビット(FP16)、8ビット(INT8)、さらには4ビット(INT4)に変換します。これにより、メモリ使用量を大幅に削減でき、高性能なGPUがなくても一般的なPCでLLMを実行できるようになります。GPTQ、AWQ、GGUF(llama.cppで使用)などの量子化フォーマットがあり、精度の低下を最小限に抑えながらモデルを圧縮する技術が発展しています。Ollamaでは量子化されたモデルを簡単にローカル実行でき、オープンソースAIの普及を後押ししています。エッジAIデバイスでの実行にも不可欠な技術です。