LoRA（ローラ）とは？大規模言語モデルの低ランク適応ファインチューニング手法を徹底解説

🌐
Read this article in English:
What Is LoRA? Low-Rank Adaptation Fine-Tuning for Large Language Models Explained →

LoRAとは

LoRA（ローラ／Low-Rank Adaptation）とは、大規模言語モデル（LLM）を少ない計算リソースでファインチューニングするための「パラメータ効率化ファインチューニング（PEFT）」手法の一つである。Microsoft Research が 2021 年に発表した論文で提案され、今では LLM の微調整におけるデファクトスタンダードとなっている。

身近な例で説明すると、LoRA は「百科事典全体を書き換える」のではなく「付箋を貼って補足する」アプローチだ。元のモデルの重みは一切変更せず、各層に小さな「付箋」のような行列ペア（A と B）を追加し、その付箋だけを学習する。これにより GPT-3 175B のフルファインチューニングと比べて、学習パラメータ数を最大 10,000 分の 1、GPU メモリ使用量を 3 分の 1 まで削減できるとされている。

重要なポイントです — LoRA は「元のモデルの性能を壊さずに、特定タスクに適応させる」ことを得意とする。ベースモデルは共通のまま、タスクごとに小さな LoRA アダプタを切り替えて使うことで、一つの基盤モデルから多様な専門モデルを派生させられる。2026 年現在、Llama 4・Claude・Gemini などあらゆる主要 LLM の派生モデル開発で LoRA が使われている。

LoRAの読み方

ローラ

エルオーアールエー

LoRA は「Low-Rank Adaptation」の頭文字から来ており、日本でも海外でも「ローラ」と発音するのが一般的。なお「LoRa（Long Range）」という低消費電力無線通信技術は別物で、こちらも発音は「ローラ」だが技術分野が異なる。文脈で区別されることが多い。

LoRAの仕組み

LoRA の核となる洞察は、「ファインチューニング時の重み更新量（ΔW）は、実は低ランク（少ない数の基底で表現可能）である」という仮説だ。もし ΔW の真のランクが r（例えば r=8）であれば、元の重み行列（例えば 4096 × 4096）を丸ごと更新する代わりに、4096 × r と r × 4096 という 2 つの小さな行列の積で表現できる。

数学的な表現

LoRAの重み更新

W
(凍結)
d×d

BA
(学習対象)
d×r × r×d

W + ΔW
(最終重み)

具体的には、元の重み行列 W に対して、更新後の重みを W’ = W + BA と表す。ここで B は d×r、A は r×d の行列で、r は事前に指定するランク（通常 4〜64）。訓練時には W は凍結され、B と A だけが勾配更新される。

なぜ効率的なのか

パラメータ数を比較すると効率性が明確になる。d=4096、r=8 の場合、W の全パラメータは 4096 × 4096 = 16,777,216 個だが、BA を表す A と B のパラメータ合計は 4096 × 8 + 8 × 4096 = 65,536 個と、約 256 分の 1 になる。これにより、学習に必要な GPU メモリ（オプティマイザの状態を保持するメモリを含む）が大幅に削減される。

アダプタの切り替え

LoRA で学習したアダプタは、推論時にベースモデルと合成（merge）するか、独立したモジュールとして付け替えることができる。同じベースモデルを使って、タスク A 用・タスク B 用・タスク C 用の LoRA アダプタを複数持ち、必要に応じて切り替える使い方が実務では一般的だ。

LoRAの使い方・実例

Hugging Face の PEFT（Parameter-Efficient Fine-Tuning）ライブラリを使うと、わずか数行のコードで既存モデルに LoRA を適用できる。

PEFT を使った基本例

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, TaskType
from datasets import load_dataset
from transformers import Trainer, TrainingArguments

# ベースモデルの読み込み
model_name = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, torch_dtype="auto", device_map="auto"
)

# LoRA 設定
lora_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,
    r=8,                        # ランク
    lora_alpha=32,              # スケーリング係数
    lora_dropout=0.1,
    target_modules=["q_proj", "v_proj"]  # 対象層
)

# モデルを LoRA 対応に変換
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# → "trainable params: 4,194,304 || all params: 17,000,000,000 || trainable%: 0.025"

# 学習データセット準備（省略）
dataset = load_dataset("your-custom-dataset")

# 学習
trainer = Trainer(
    model=model,
    args=TrainingArguments(output_dir="./lora-output", num_train_epochs=3),
    train_dataset=dataset["train"]
)
trainer.train()
model.save_pretrained("./lora-adapter")

主要なハイパーパラメータ

LoRA 学習で特に重要なハイパーパラメータは 3 つある。第一に「r（ランク）」で、通常 4〜64 の範囲で設定する。大きいほど表現力は上がるがパラメータ数も増える。第二に「lora_alpha」でスケーリング係数として働き、実効学習率に影響する。第三に「target_modules」でどの層に LoRA を適用するかを指定する。実務では、Attention の q_proj と v_proj だけに適用するのが定番だ。

アダプタのマージ

推論時には、LoRA の BA をベース重み W と合成して単一の行列にすることで、追加の計算オーバーヘッドを完全に排除できる。ただしマージすると「切り替え可能な複数アダプタ」という利点は失われる。

LoRAのメリット・デメリット

メリット

GPU メモリ使用量の劇的な削減が最大の強みだ。フルファインチューニングでは数枚の H100 が必要な 70B モデルでも、LoRA なら RTX 4090（24GB）1 枚で微調整可能になる。学習時間も大幅に短縮される。アダプタは数十 MB 程度のファイルサイズなので、保存・配布も楽だ。実務では、一つのベースモデルから 10 個以上の LoRA アダプタを派生させて使う運用が一般的になっている。

デメリット

LoRA はあくまで「低ランクの更新で表現できる範囲」に限定される。ベースモデルに存在しない知識を完全に注入するような用途（例：全く新しい言語の学習）では性能が頭打ちになる。また、r の設定が難しく、タスクによって最適値が異なる。一般に複雑なタスクほど大きな r が必要になる点は覚えておきたい。

LoRAとフルファインチューニング・QLoRAの違い

ファインチューニング手法は複数あり、それぞれ特徴がある。

項目	LoRA	フルFT	QLoRA
学習対象	低ランク行列のみ	全パラメータ	LoRA + 4bit量子化
GPU要件	小〜中	大（複数枚）	最小（1枚可）
学習時間	短い	長い	短い
最終品質	高い（同等以上）	最高	高い（若干劣化）
アダプタサイズ	数十MB	数十GB	数十MB

実務では、GPU 資源が潤沢ならフルFT、限られているなら LoRA、単一の GPU で 70B クラスを調整したいなら QLoRA という使い分けが一般的だ。注意してほしいのは、QLoRA はベースモデルを 4bit 量子化してから LoRA を適用するため、若干の品質低下がある点だ。

よくある誤解

誤解1: LoRA は性能が必ず劣る

論文や多くの検証で、LoRA はフルファインチューニングと「同等以上」の性能を出すことが報告されている。RoBERTa、DeBERTa、GPT-2、GPT-3 のベンチマークで LoRA が同等以上を記録した事例が多い。実務でも「LoRA で十分」というケースが大半だ。

誤解2: ランクは大きい方が良い

ランクを大きくすれば表現力は上がるが、学習データが少ない場合は過学習のリスクが増える。目安として、タスクの複雑さに応じて r=8〜32 で始め、必要なら増やしていく方針が安全だ。

誤解3: LoRA は Attention 層にしか使えない

Attention 層（q/v/k/o projection）への適用が最も一般的だが、Feed-Forward 層（MLP）にも適用可能だ。全層に適用するほど表現力は上がるが学習パラメータ数も増える。実務では「Attention のみ」から始めるのが定番。

実務での活用シーン

LoRA は LLM のカスタマイズにおける主力手法になっている。企業では、業務ドメイン特化（法律、医療、金融）の AI アシスタントを LoRA で作成したり、ブランドトーンに合わせたカスタマーサポート AI を調整したりしている。画像生成分野でも Stable Diffusion 系モデルのキャラクター・画風特化で LoRA が広く使われている。

ユースケース

1. ドメイン特化LLM: 法律・医療・金融専門 AI の構築
2. ブランドトーン調整: カスタマーサポート AI のスタイル統一
3. 画像生成: Stable Diffusion のキャラクター・画風 LoRA
4. 翻訳品質向上: 特定業界用語に最適化された翻訳モデル
5. コード補完: 社内フレームワークに合わせた補完モデル