MoE（Mixture of Experts）とは？読み方・仕組み・Mixtral/DeepSeek/Llama 4の実例を徹底解説

MoE（Mixture of Experts）とは

MoE（Mixture of Experts、混合エキスパート）とは、ニューラルネットワークの内部を複数の「エキスパート（専門家）」と呼ばれる小さなサブネットワークに分割し、入力ごとに一部だけを選んで計算するアーキテクチャのことである。すべてのエキスパートを毎回動かす通常の密な（Dense）モデルと対比して、MoE モデルは疎な（Sparse）活性化を行い、総パラメータ数は巨大でも「1 推論あたりに実際に使うパラメータ数」は小さく抑えられる。DeepSeek V3・Mistral Mixtral 8x22B・Llama 4 Maverick などの 2024〜2026 年の主要 LLM は MoE を採用しており、現代の LLM アーキテクチャを語るうえで避けて通れない用語になっている。

身近な例えで言うと、MoE は「巨大なコールセンター」のようなものである。コールセンターに 100 人のオペレーターがいても、1 件の問い合わせに全員が同時に対応するわけではなく、内容に応じて 2〜4 人の専門家だけがアサインされる。この「内容に応じて一部の専門家だけを呼び出す仕組み」を担当する役が、MoE における「Router（ルーター）」または「Gating Network（ゲーティングネットワーク）」である。これにより、モデルの総容量は増やしつつ推論コストは抑えるという、実用 AI にとって非常に重要な両立が可能になる。

MoEの読み方

エムオーイー

モー（まれに略称としてそのまま読む例もある）

ミクスチャーオブエキスパーツ（正式名称をそのまま読む場合）

MoEの仕組み

MoE 層は Transformer の FeedForward（フィードフォワード）層を拡張する形で実装されるのが一般的である。具体的には、FFN 層を N 個のエキスパート（通常 8〜256 個）に置き換え、入力トークンごとに Router が上位 K 個のエキスパートだけを選んで計算を行う。Top-K ルーティングと呼ばれる方式で、K=2 が広く採用されている。

基本構造

MoE 層の処理フロー

入力トークン

→

Router スコア計算

→

Top-K エキスパート選択

→

選ばれたExpertで計算

→

重み付き結果を合算

総パラメータと活性パラメータ

ここが重要なポイントです。MoE を語るときは「総パラメータ数」と「活性パラメータ数」の 2 つを必ず区別する必要があります。Mixtral 8x22B は総パラメータ 141B ありますが、1 推論で実際に使うのは 39B 程度。DeepSeek V3 は総パラメータ 671B に対し活性は 37B です。覚えておきたいのは、モデルサイズの比較で MoE の総パラメータだけを Dense モデルと並べて語るのは不正確だという点です。

主要 MoE モデルの比較

モデル	総パラメータ	活性パラメータ	Expert構成
Mixtral 8x7B	47B	13B	8 experts, Top-2
Mixtral 8x22B	141B	39B	8 experts, Top-2
DeepSeek V3	671B	37B	256 experts, Top-8
Llama 4 Maverick	400B	17B	128 experts, Top-1

Shared Expertとその役割

最近の MoE 実装では、すべてのトークンが通る「Shared Expert」と、選択的に通る「Routed Expert」を併用する設計が主流。DeepSeek V3 は 1 つの Shared Expert と 256 個の Routed Expert の組み合わせで、Shared Expert が汎用的な処理を担当し、Routed Expert が専門化する。この分業により、稀な専門領域への対応と一般的な性能の両立が可能になります。

ここが重要なポイントです。Shared Expert を持つことで「エキスパートに当たり外れがある」問題を軽減でき、出力品質の下限が引き上げられる。覚えておきたいのは、MoE の研究は単にエキスパート数を増やすだけでなく、Router の工夫（Expert Choice Routing, Noisy Top-K 等）と Shared Expert の組み合わせへと進化しているという点です。

Expert ParallelismとGPU配置

MoE モデルを複数 GPU に分散させる典型的な方法が Expert Parallelism。異なるエキスパートを別々の GPU に配置し、ルーティング結果に応じてトークンを対応する GPU にシャッフルして送る設計で、DeepSeek・Mixtral の分散推論はこの方式を基盤にしている。注意しておきたいのは、トークンシャッフルによる通信コストが無視できない点で、All-to-All 通信を高速化する NVIDIA NVLink や InfiniBand が事実上必須の環境となっている。

MoEの使い方・実例

MoE モデルを推論するには、Hugging Face Transformers や vLLM などのフレームワークが対応しており、Dense モデルとほぼ同じ API で扱える。注意しておきたいのは、総パラメータ分の VRAM は必要な一方で、演算量は活性パラメータ相当で済む、という計算／メモリのアンバランスな性質がある点です。

Mixtral 8x7B の推論例

# Python: Hugging Face Transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
tok = AutoTokenizer.from_pretrained("mistralai/Mixtral-8x7B-Instruct-v0.1")
model = AutoModelForCausalLM.from_pretrained(
    "mistralai/Mixtral-8x7B-Instruct-v0.1",
    device_map="auto",
    torch_dtype="bfloat16"
)
inputs = tok("MoEとは何ですか？", return_tensors="pt").to("cuda")
out = model.generate(**inputs, max_new_tokens=256)
print(tok.decode(out[0]))

学習時の補助損失

MoE の学習では、特定のエキスパートに入力が集中しないようバランスを取る「ロードバランシング損失」を加えるのが一般的。これを怠ると大半のエキスパートが学習されず、実質 Dense モデルと変わらない結果になる。

ファインチューニング時の注意点

MoE モデルをファインチューニングする際は、Dense モデルとは異なる注意点がある。特に小規模データでファインチューニングする場合、Router が偏って特定のエキスパートのみを学習させてしまい、残りのエキスパートが荒れるリスクがある。対策として、LoRA を Router ではなくエキスパート内部にのみ適用する、ロードバランシング損失を学習中も継続する、といった工夫が必要です。

# PEFT で MoE モデルに LoRA を適用する例
from peft import LoraConfig, get_peft_model
config = LoraConfig(
    r=16,
    target_modules=["gate_proj", "up_proj", "down_proj"],  # Router 以外を狙う
    lora_alpha=32,
    bias="none",
)
model = get_peft_model(base_model, config)

量子化と推論最適化

MoE モデルの量子化は Dense モデルよりやや難しいが、実用的な手法が確立されつつある。4bit 量子化（GPTQ, AWQ）により Mixtral 8x22B を 40GB 程度の VRAM で実行可能。覚えておきたいのは、量子化のレベルが深いほど Router の精度が低下しやすく、Top-K 選択が不安定化する点で、推論速度よりも出力品質を優先する用途では 8bit 量子化に留めるのが無難です。

MoEのメリット・デメリット

メリット

総容量を保ったまま推論コストを抑えられる
同じ演算量で、Dense モデルより高い性能を出しやすい
エキスパートごとに異なる知識領域を学習しやすく、スケーラビリティが高い
追加学習でエキスパートを差し替えやすく、モジュラリティがある

デメリット

総パラメータ分の GPU メモリが必要で、VRAM コストが高い
ロードバランス学習が難しく、調整を誤ると精度が頭打ちする
Router の決定が不安定だと推論の品質がブレる
量子化・蒸留が Dense モデルよりやや複雑

MoEとDenseモデルの違い

観点	MoE	Dense
活性パラメータ	一部のみ	すべて
VRAM	総パラメータ分必要	総パラメータ分必要
推論FLOPs	低い	高い
学習難易度	高い（ロードバランス課題）	標準