Llama 4とは？Metaの最新オープンAIモデル・MoE構造・Scout/Maverickの違いを徹底解説

🌐
Read this article in English:
What Is Llama 4? Meta’s Multimodal Open AI Family — Scout, Maverick, and Behemoth Explained →

Llama 4とは

Llama 4（ラマ4）とは、Meta 社（旧 Facebook）が 2025 年 4 月に公開したオープンウェイトの大規模言語モデルファミリーである。Meta の AI 戦略の中核を担うモデル群で、Llama 3 シリーズの後継として位置付けられている。最大の特徴は「Mixture of Experts（MoE）」アーキテクチャの本格採用と、ネイティブなマルチモーダル（テキスト＋画像）対応だ。

身近な例えで言うと、MoE は「大勢の専門家がいる会社」のような仕組みで、入力ごとに関連する専門家（エキスパート）だけが働く。Llama 4 Scout は 109B のパラメータを持ちながら、推論時は 17B 分だけが活性化するため、大規模モデルでありながら実行コストを抑えられる。

重要なポイントです — 2026 年 4 月、Meta Superintelligence Labs（旧 Meta AI）は Llama の後継として「Muse Spark」を発表した。Muse Spark は proprietary（クローズドソース）であり、Llama 系列で築かれた「オープンモデル」の系譜から大きく方針転換している。この転換により、Llama 4 はオープンウェイト時代の最後の主力モデルとして歴史的な位置づけを持つことになった。

Llama 4の読み方

ラマフォー

ラマよん

「Llama」は英語で南米のラクダ科動物ラマを意味し、Meta のブランディングでも動物のラマがマスコットとして使われている。バージョン番号は英語読み「フォー」か日本語読み「よん」のどちらでも通じる。なお公式の Llama ロゴは「LLaMA」と大文字小文字が混在しているが、現在は「Llama」表記が標準だ。

Llama 4の仕組み

Llama 4 の最大の技術的特徴は MoE（Mixture of Experts）アーキテクチャだ。従来の密結合（Dense）モデルが毎回全パラメータを使うのに対し、MoE は入力トークンごとに関連するエキスパート（専門家サブネットワーク）だけを活性化する。これにより、総パラメータ数は大きいまま、実行時の計算コストを抑える設計になっている。

Llama 4 ファミリーの構成

Llama 4 ファミリー

Scout
109B 総パラメータ
17B 活性 / 16専門家
10M コンテキスト

Maverick
400B 総パラメータ
17B 活性 / 128専門家
1M コンテキスト

Behemoth
~2T 総パラメータ
288B 活性 / 16専門家
※未リリース

マルチモーダル機能

Llama 4 は画像入力にネイティブ対応しており、テキストと画像を横断した理解が可能だ。例えば、アプリのスクリーンショットを与えて「このUIの問題点は？」と質問したり、医療画像の所見を記述させたりといった使い方ができる。12 言語に対応した多言語処理も強みだ。

10M トークンコンテキスト

Llama 4 Scout の 1000 万トークンコンテキストは、公開時点で業界最長クラスだった。実務では、複数のリポジトリ・書籍・動画転写を丸ごと読み込ませて横断分析する用途で活用されている。注意してほしいのは、コンテキストが長いほど推論に必要な GPU メモリも増えるため、実運用では適切な量子化（INT4 / INT8）が推奨される。

Llama 4の使い方・実例

Llama 4 はオープンウェイトなので、モデルファイルを直接ダウンロードしてローカルやクラウド GPU で推論できる。Hugging Face、Ollama、vLLM など多くの実行環境がサポートしている。

Hugging Face からのダウンロード

# Hugging Face CLI でダウンロード
huggingface-cli download meta-llama/Llama-4-Scout-17B-16E-Instruct \
  --local-dir ./llama-4-scout

# Python から使用
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("./llama-4-scout")
model = AutoModelForCausalLM.from_pretrained(
    "./llama-4-scout",
    torch_dtype="auto",
    device_map="auto"
)

prompt = "日本の江戸時代の文化について説明してください"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

クラウドプロバイダーでの利用

AWS Bedrock、Azure AI Foundry、Google Cloud Vertex AI、Groq、Together AI などの主要クラウドで Llama 4 のマネージド API が提供されている。セルフホスティングのインフラ運用が難しい場合は、こうしたマネージド経路を使うのが現実的だ。

Meta AI アプリ・WhatsApp での利用

Meta AI（meta.ai）、Facebook、Instagram、WhatsApp には Llama 4 が組み込まれており、一般ユーザーも日常的にアクセスできる。実務では、この API 経由で Llama 4 を呼び出すのではなく、エンドユーザー向けのエージェント機能として活用されている。

Llama 4のメリット・デメリット

メリット

オープンウェイト（Llama 4 Community License）であるため、研究・商用利用ともにモデル本体を手元で動かせる。機密データを外部 API に送らず、オンプレミスやプライベートクラウドで完結する AI を構築できるのが最大の強みだ。MoE 設計により、大規模モデルながら推論コストは抑えられる。実務では、セキュリティ要件の厳しい金融・医療・政府機関で採用が進んでいる。

デメリット

オープンウェイトとはいえ「月間アクティブユーザー数 7 億人以上のサービスでの商用利用」は制限されている（完全なオープンソースではない）。また、セルフホスティングには高価な GPU（H100 1 枚以上）が必要で、運用ハードルが高い。2026 年には Meta 自身が Muse Spark に主軸を移しており、Llama 4 への継続的な大規模アップデートは期待できない点も覚えておくべきだ。

Llama 4とClaude・GPTの違い

Llama 4 は商用クローズドモデルと比較されることが多いが、思想が根本的に異なる。

項目	Llama 4	Claude	GPT
公開形態	オープンウェイト	クローズド（API）	クローズド（API）
セルフホスト	○	×	×
ファインチューニング	○（自由）	限定的	限定的
コンテキスト長	最大 10M (Scout)	200K	数十万
アーキテクチャ	MoE	非公開	非公開
用途の強み	カスタマイズ・オンプレ	エージェント	汎用

実務では、機密データを扱うユースケースやファインチューニングによる特化モデルが欲しい場合は Llama 4、すぐに高性能な AI を使いたい場合は Claude や GPT という使い分けが一般的だ。

よくある誤解

誤解1: Llama 4 は完全なオープンソース

Llama 4 のライセンスは「Llama 4 Community License」であり、OSI 認定のオープンソースライセンスではない。月間アクティブユーザー数が 7 億人を超える大企業は別途 Meta と契約が必要など、独自の制約がある。「オープンウェイト」とは呼べるが「オープンソース」と断言するのは不正確だ。

誤解2: Llama 4 は誰でもローカル PC で動かせる

Llama 4 Scout は 1 枚の NVIDIA H100（80GB VRAM）に収まるとされているが、一般的なコンシューマー GPU（RTX 4090 等）では量子化版のみが動作する。Maverick は更に大きな GPU が必要で、個人 PC では事実上動かせない。

誤解3: Behemoth はリリース済み

2025 年 4 月のアナウンスに含まれていた Behemoth（~2T パラメータ）は、2026 年 4 月時点でも公開されていない。Scout と Maverick のリリース時点ではまだ学習中と説明され、その後 Muse Spark への戦略転換により Behemoth のオープンウェイト公開は不透明になっている。

実務での活用シーン

Llama 4 は機密性の高いデータを扱う現場で特に重宝されている。金融機関では取引記録の分析、医療機関では電子カルテの要約、政府機関では公文書の分類といった用途で、外部 API にデータを送れない制約下での AI 活用を可能にしている。また、特定ドメイン（法律、医療、製造）向けにファインチューニングして独自 AI を構築するベースモデルとしても広く使われている。

ユースケース

1. オンプレミス AI: 外部 API が使えない金融・医療現場
2. ドメイン特化モデル: 法律・医療向けファインチューニング
3. エッジ推論: Scout を量子化した小規模デプロイ
4. 研究用途: LLM の内部動作研究・ベンチマーク
5. コスト最適化: 大規模バッチ処理での推論コスト削減

よくある質問（FAQ）

Q. Llama 4 は無料で使えますか？

A. モデル本体のダウンロードは無料だが、Hugging Face でのアクセス申請が必要。Meta AI アプリや Meta のソーシャルサービス経由での利用も無料。ただし自前ホスティングには GPU インフラのコストがかかる。

Q. 日本語性能は？

A. Llama 3 より日本語性能は向上しているが、Claude や GPT と比べるとまだ差がある。日本語特化のファインチューニング（例: ELYZA Llama などの派生モデル）を使うと品質を底上げできる。

Q. Llama 4 と Muse Spark の関係は？

A. Muse Spark は Meta Superintelligence Labs が 2026 年に発表した proprietary モデルで、Llama の後継的位置づけ。Muse Spark はクローズドソース・セルフホスト不可の大きな方針転換であり、オープンウェイトを求めるユーザーは Llama 4 が最新の選択肢となる。