Quantization（量子化）とは？読み方・LLM軽量化の仕組み・FP16/INT8/INT4・GPTQ/AWQの違いを完全解説

Quantization（量子化）とは

Quantization（量子化）とは、機械学習モデルの重みや計算で使われる数値の精度（ビット数）を、FP32（32bit浮動小数点）からFP16・INT8・INT4などのより小さい形式に変換する技術のこと。LLMの軽量化・高速化・省メモリ化のための主要手法として、2024年以降のローカルLLM普及の中心にある技術だ。

身近な例えで言えば、写真を10MBから1MBに圧縮するようなもの。多少は色や輪郭の精細さが失われるが、保存容量は10分の1、表示速度も劇的に速くなる。LLMでも同じく、量子化によってモデルが10分の1サイズになり、推論速度が2〜4倍になる代わりに、わずかな精度低下を許容するトレードオフが発生する。

Quantizationの読み方

クオンタイゼーション

量子化（りょうしか）

クォンタイゼーション

Quantizationの仕組み

量子化の核心は「連続的な値を有限個のレベルにマッピングする」こと。LLMの重みは典型的に-3から+3程度の範囲に分布する小数値だが、これを256段階のINT8や16段階のINT4にマッピングし直す。マッピングの仕方が量子化アルゴリズムの腕の見せどころで、精度劣化を最小化する工夫が各種手法の差別化になっている。これが重要なポイントです。

主要な精度フォーマット

LLMで使われる主な数値フォーマットは以下：

FP32（32bit float）：訓練時の標準。1パラメータあたり4バイト。
FP16 / BF16（16bit float）：推論の標準。FP32の半分のメモリで誤差はほぼ無視できる。
INT8（8bit integer）：量子化の入口。メモリ1/4、速度向上が顕著。
INT4（4bit integer）：個人GPUでの主流。メモリ1/8、速度はさらに向上。
INT2 / 1.58bit：研究段階。極端な圧縮で実用化はモデル次第。

主要な量子化アルゴリズム

近年のLLM量子化で広く使われる手法：

GPTQ：再校正なしで重みを4-bit化。Frantar et al. 2022。Hugging Faceで広く配布される。
AWQ（Activation-aware Weight Quantization）：活性化値の重要度に応じて重要な重みは高精度を保つ。Lin et al. 2023。
GGUF：llama.cpp用のファイルフォーマット。中身はQ4_0、Q4_K_M、Q5_K_S等の各種量子化が可能。
bitsandbytes（NF4）：QLoRA論文で使われる4-bit形式。Hugging Face Transformersに統合。
SmoothQuant：8-bit量子化を活性化値も含めて適用。サーバーサイドで人気。

背景: 量子化はなぜ必須技術になったのか

2023年以降、Llama 2、Mistral、Llama 3、DeepSeek、Qwenなどのオープンウェイト大規模モデルが一般公開され、エンドユーザーが手元で動かしたいというニーズが急増した。Llama 70BをFP16で動かすには140GB以上のVRAMが必要だが、4-bit量子化なら約40GBに収まり、24GB×2 GPUや36GBのMacで動かせる。実務では、この差がローカルLLM運用の可否を決めるため、量子化技術はAIエンジニアの必須スキルになっています。

Quantizationの使い方・実例

基本的な使い方（Quick Start）

# Hugging Face Transformers + bitsandbytes
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype="float16",
)

model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-3.1-70B",
    quantization_config=bnb_config,
    device_map="auto",
)

llama.cpp + GGUFでローカル実行

# GGUF形式の量子化済みモデルをダウンロード
huggingface-cli download TheBloke/Llama-3-70B-Instruct-GGUF \
    Llama-3-70B-Instruct.Q4_K_M.gguf

# llama.cppで実行
./llama-cli -m Llama-3-70B-Instruct.Q4_K_M.gguf \
    -p "量子化について説明して" -n 256

よくある実装パターン

パターンA: Ollamaでお手軽デプロイ

# Ollamaは量子化済みモデルを内部管理
ollama pull llama3:70b-instruct-q4_K_M
ollama run llama3:70b-instruct-q4_K_M

向いているケース: 個人開発者・小規模チーム。デフォルトで4-bit GGUFが自動選択され、設定がほぼ不要。

避けるべきケース: 高スループットの本番運用。Ollamaは個人用途寄りでリクエスト並列化が弱い。

パターンB: vLLMでサーバーサイド量子化推論

from vllm import LLM, SamplingParams

llm = LLM(
    model="TheBloke/Llama-3-70B-AWQ",
    quantization="awq",
    tensor_parallel_size=2,
)
output = llm.generate(["量子化を説明して"], SamplingParams(max_tokens=200))

向いているケース: 本番サーバー運用。AWQ量子化＋PagedAttentionで高スループットと低メモリを両立。実務では、社内推論基盤の標準として広く採用されています。

避けるべきケース: 単発の対話用途。セットアップが重く、コンテナ化のオーバーヘッドが目立つ。

パターンC: QLoRAでファインチューニング

# 4-bit量子化済みモデルにLoRAアダプタを学習
from peft import LoraConfig, get_peft_model

base_model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-3.1-70B", load_in_4bit=True
)
lora_config = LoraConfig(r=16, lora_alpha=32, target_modules=["q_proj","v_proj"])
model = get_peft_model(base_model, lora_config)

向いているケース: 個人GPUで70Bクラスをファインチューニングしたい場合。コストを大幅に削減できる。

アンチパターン: 何でも闇雲に4-bit化

# ⛔ NG（タスク重要性を考えず最低精度で運用）
ollama pull big-model:q2_K  # 極端な量子化

2-bitなど極端な量子化はモデルによっては精度が大きく劣化し、業務利用に耐えない。実務では、まず4-bit (Q4_K_M) で動作確認し、メモリに余裕があれば5-bitや8-bitに上げるのが鉄則であり、ここは特に注意してください。

Quantizationのメリット・デメリット

メリット

VRAM消費を1/2〜1/8に削減
推論速度が2〜4倍に向上（メモリ帯域がボトルネックの場合）
個人GPU・スマホ・組み込みでLLMを動かせる
クラウドコストの削減（インスタンスサイズダウン可能）
消費電力の低減

デメリット・注意点

精度低下は不可避（量子化レベルが低いほど顕著）
ハルシネーション率が上昇する傾向（2026年研究）
レアな事実・数値で誤りが増えやすい
長文出力で誤差が累積しやすい
量子化済みモデルの再ファインチューニングは手間がかかる

QuantizationとPruning・Distillationの違い

モデル軽量化の手法はいくつかあり、量子化はその一つ。下記の比較表で違いを整理する。

観点	Quantization	Pruning（枝刈り）	Distillation（蒸留）
何を変えるか	数値の精度	パラメータの個数	モデルそのもの
圧縮率	2〜8倍	1.5〜4倍	5〜100倍
再学習の必要	不要（事後量子化）	推奨（fine-tuning）	必須
精度低下	小（手法による）	中	大
代表例	GPTQ, AWQ, GGUF	SparseGPT, Wanda	DistilBERT, TinyLlama
組み合わせ	他手法と併用可	量子化と併用が一般的	量子化と併用可