ファインチューニング完全ガイド｜SFT・LoRA・DPOの選び方から実装・評価まで

SFT・LoRA・DPOの3手法を理解し、データ量・コスト・目的に応じた選択基準を習得できます
QLoRAを使えば9GB VRAMのコンシューマGPUでも大規模モデルの学習が可能になります
データ準備から実装コード、評価指標まで一貫したワークフローを実践できます

ファインチューニングとは

ファインチューニングは、事前学習済みのLLM（大規模言語モデル）を特定のタスクやドメインに適応させる手法です。自社のデータや業務要件に合わせてモデルの振る舞いを調整することで、汎用モデルでは実現できない専門性や精度を獲得できます。

この手法は、ゼロから学習する場合と比べて必要なデータ量が少なく、計算コストも大幅に削減できます。医療記録の解析、法律文書の要約、カスタマーサポートなど、業界特有の文脈を理解する必要がある場面で特に有効です。

SFT（教師ありファインチューニング）

SFT（Supervised Fine-Tuning）は、入力と望ましい出力のペアを大量に学習させる最も基本的な手法です。業務で蓄積したQ&Aデータやレビュー済みの回答例を用いて、モデルに専門分野での解釈と回答構造を教え込みます。

例えば、医療チャットボットを構築する場合、「患者の症状説明」と「医師の診断アドバイス」のペアを数千件用意します。モデルはこれらのパターンを学習し、新しい症状説明に対しても適切な医学的観点から回答できるようになります。

SFTの強みは、タスクの全体像を体系的に学習できる点にあります。ただし、高品質なラベル付きデータを大量に用意する必要があり、データ作成コストが課題となります。

LoRA（軽量チューニング）

LoRA（Low-Rank Adaptation）は、モデル全体を更新せず、学習対象を差分パラメータに限定する実装手法です。元のモデルの重みは固定したまま、小さな「アダプタ」層のみを追加・学習することで、メモリ使用量と学習時間を劇的に削減します。

具体的には、数百億パラメータのモデルに対して、わずか数百万パラメータのLoRA層を追加するだけで済みます。この結果、フル精度でのファインチューニングに32GB以上のVRAMが必要だったモデルでも、LoRAを使えば16〜24GB程度で学習可能になります。

さらに軽量なQLoRA（Quantized LoRA）は、4ビット量子化と組み合わせることで、9GB VRAMのコンシューマGPU（RTX 3090やRTX 4080など）でも大規模モデルの学習が可能です。65億パラメータのモデルを単一の48GB GPUで、700億パラメータのモデルを80GB GPUでファインチューニングできることが実証されています。

LoRAの利点は、複数のタスクごとに異なるアダプタを保存・切り替えできる点にもあります。ベースモデルは共通で、タスクAとタスクBで別々のLoRA層を用意すれば、モデル全体を複製する必要がありません。

DPO（嗜好最適化）

DPO（Direct Preference Optimization）は、好ましい出力と好ましくない出力を比較させることで、判断の優先順位をモデルに反映させる手法です。複雑な選択が必要な業務や、微妙なニュアンスの違いが重要な場面で威力を発揮します。

例えば、カスタマーサポートで「正確だが冷たい回答」と「親しみやすいが曖昧な回答」のどちらを優先すべきかは、企業の方針によって異なります。DPOでは、こうした好みの違いを「選好データ」として学習させ、企業文化や顧客層に合った応答スタイルを獲得します。

実装には、同じ入力に対する複数の出力候補を人間が評価し、「より良い回答」と「より悪い回答」のペアを作成します。モデルはこの選好データから、どのような特徴が高評価につながるかを学習します。

DPOは、従来のRLHF（Reinforcement Learning from Human Feedback）と比べてシンプルで安定した学習が可能です。報酬モデルを別途学習する必要がなく、選好データから直接最適化できるため、実装の複雑さが大幅に軽減されます。

手法の比較と選び方

3つの手法の特徴を整理すると、次のような違いがあります。

項目	SFT	LoRA	DPO
主な目的	タスク特化	効率的学習	嗜好反映
必要データ	入出力ペア（大量）	入出力ペア（中程度）	選好データ（中程度）
計算コスト	高い	低い	中程度
メモリ要件	32GB以上	9〜24GB	16〜32GB
適用場面	ドメイン全体の学習	リソース制約下の学習	応答品質の微調整

どの手法を選ぶべきかは、以下の判断軸で決めます。

データ量が豊富でタスク特化が目的なら、SFTとLoRAの組み合わせが最適です。数千件以上のラベル付きデータがあり、専門分野の知識を体系的に学習させたい場合、まずSFTで基礎を固め、LoRAで効率的に学習を進めます。

リソースが限られている場合は、QLoRAを優先します。コンシューマGPU1枚で大規模モデルを扱えるため、個人開発者や小規模チームでも実用的なファインチューニングが可能になります。

応答の優先順位付けや品質改善が必要なら、DPOを追加します。SFTで基本的な能力を獲得した後、DPOで企業の方針や顧客の好みに合わせた微調整を行うのが一般的なワークフローです。

データ準備の実践手順

ファインチューニングの成否は、データの質に大きく左右されます。以下の5段階のプロセスを踏むことで、学習効果を最大化できます。

1. データセット構築 — 業務ログ、Q&A履歴、レビュー済み文書などから入出力ペアを収集します。SFTには最低数百件、理想的には数千件以上が必要です。DPOの場合は、同じ入力に対する複数の出力候補を人間が評価し、選好データを作成します。

2. 前処理とクリーニング — 個人情報のマスキング、重複データの削除、フォーマットの統一を行います。特に、誤った情報や不適切な表現を含むデータは学習前に除外する必要があります。データの多様性を保ちながら、ノイズを最小限に抑えることが重要です。

3. 学習実行 — ログ記録と監視を徹底します。学習中の損失関数の推移、過学習の兆候、メモリ使用量などをリアルタイムで確認し、異常があれば早期に対処します。チェックポイントを定期的に保存し、いつでも過去の状態に戻れるようにしておきます。

4. 検証と評価 — 学習に使わなかった検証データで品質を確認します。正解率、BLEU、ROUGEなどの定量指標に加え、実際の業務担当者による定性評価も欠かせません。期待する振る舞いを示しているか、意図しないバイアスが混入していないかを多角的に検証します。

5. 本番デプロイと運用 — 利用ログの回収設計を事前に組み込みます。デプロイ後も継続的にモデルの出力を監視し、品質低下や新たな問題の発生に備えます。収集したログは次回のファインチューニングのデータソースとして活用できます。

実装コード例

Hugging Faceのライブラリを使った実装例を示します。まず、LoRAを用いたSFTの基本コードです。

from transformers import AutoModelForCausalLM, Trainer, TrainingArguments
from peft import LoraConfig, get_peft_model
from datasets import load_dataset

# ベースモデルの読み込み
model = AutoModelForCausalLM.from_pretrained("google/gemma-2-2b")

# LoRA設定
lora_config = LoraConfig(
    r=8,                    # LoRAのランク（小さいほど軽量）
    lora_alpha=32,          # スケーリング係数
    target_modules=["q_proj", "v_proj"],  # 対象レイヤー
    lora_dropout=0.1,
    task_type="CAUSAL_LM"
)

# LoRA層を追加
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()  # 学習対象パラメータ数を確認

# データセット読み込み
dataset = load_dataset("your_dataset")

# 学習設定
training_args = TrainingArguments(
    output_dir="./output",
    num_train_epochs=3,
    per_device_train_batch_batch_size=4,
    gradient_accumulation_steps=4,
    learning_rate=2e-4,
    fp16=True,              # 混合精度学習
    logging_steps=10,
    save_strategy="epoch"
)

# 学習実行
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset["train"],
    eval_dataset=dataset["validation"]
)

trainer.train()
model.save_pretrained("./my_adapter")

次に、DPOの実装例です。TRLライブラリを使うことで、わずか数行で実装できます。

from datasets import load_dataset
from trl import DPOTrainer

# 選好データセットの読み込み（"chosen"と"rejected"のペア）
dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")

# DPO学習
trainer = DPOTrainer(
    model="Qwen/Qwen3-0.6B",
    train_dataset=dataset,
    beta=0.1,               # KLペナルティの強さ
    learning_rate=5e-7
)

trainer.train()

QLoRAで4ビット量子化を使う場合は、以下のように設定します。

from transformers import AutoModelForCausalLM, BitsAndBytesConfig

# 4ビット量子化設定
quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype="float16",
    bnb_4bit_quant_type="nf4",      # NormalFloat4
    bnb_4bit_use_double_quant=True  # 二重量子化
)

# モデル読み込み（9GB VRAMで動作）
model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-2-7b-hf",
    quantization_config=quant_config,
    device_map="auto"
)

評価と継続的改善

ファインチューニング後のモデルは、定量指標と定性評価の両面から検証します。

定量指標では、タスクの種類に応じて適切なメトリクスを選びます。テキスト生成ならBLEUやROUGE、分類タスクなら正解率・適合率・再現率、要約ならBERTScoreなどが一般的です。これらの指標をベースラインモデルと比較し、改善度を定量的に把握します。

定性評価では、実際の業務担当者や対象ユーザーに出力を見てもらい、実用性を確認します。数値では測れない「自然さ」「適切さ」「安全性」などを人間の目で判断することが不可欠です。

さらに、人手ラベル不要でLLMの推論ステップ誤りを検出するプロセス報酬モデルのような新しい評価手法も登場しています。こうしたツールを活用することで、大量の出力を効率的に品質チェックできるようになります。

運用フェーズでは、継続的な監視とフィードバックループの構築が重要です。ユーザーからの評価データやエラー報告を収集し、定期的に再ファインチューニングを行うことで、モデルの品質を維持・向上させます。新しいデータが蓄積されるたびに、段階的に学習を進める「インクリメンタル学習」の仕組みを整えておくと、長期的な運用がスムーズになります。