NeMo Customizer とは

NeMo Customizer は NeMo Microservices GA に含まれる、エンタープライズ向けファインチューニングサービスです。OSS既存のフレームワーク(Hugging Face Transformers、Axolotl、Unsloth等)と異なり、RBAC・observability・本番運用前提の SLA が組み込まれている点が最大の特徴です。

対応ベースモデルは Llama・Phi・Gemma・Mistral・Llama Nemotron Ultra・Nemotron 3 Nano/Super/Nano Omni等の主要オープンモデル。NemoClaw からシームレスに呼び出せ、ファインチューニング後のモデルはそのまま本番推論に流せます。

ファインチューニング手法の使い分け

手法更新パラメータ必要GPU所要時間(10万件)精度用途
LoRA0.1〜2%1〜2 GPU2〜8時間★★★☆☆軽量・低コスト・複数LoRAスイッチ
QLoRA0.1〜2%(4bit量子化)1 GPU4〜12時間★★★☆☆最小コスト・コンシューマGPU可
PEFT (P-tuning等)0.01〜0.5%1〜2 GPU1〜4時間★★☆☆☆プロンプト調整・最軽量
Full Fine-tuning100%4〜32 GPU24〜120時間★★★★★本格カスタム・大規模データ
DPO/RLHF10〜100%4〜16 GPU48〜240時間★★★★☆嗜好性アラインメント

商用エンタープライズ案件では LoRA から始めて、精度不足の場合に Full FT に切替えるのが定石。詳細はPoCの進め方を参照。

実装手順(LoRA on Llama 3 70B)

NeMo Customizer を使った標準的なLoRAファインチューニング手順:

# 1. データセット準備(JSONL形式)
{"prompt":"質問1","response":"回答1"}
{"prompt":"質問2","response":"回答2"}
...

# 2. Customizer API呼び出し(NemoClaw経由)
curl -X POST https://nemoclaw.your-org.com/v1/customizer/jobs \
  -H "Authorization: Bearer $TOKEN" \
  -d '{
    "base_model": "meta-llama/Llama-3.3-70B-Instruct",
    "method": "lora",
    "dataset_uri": "s3://your-bucket/training.jsonl",
    "hyperparameters": {
      "lora_rank": 16,
      "lora_alpha": 32,
      "learning_rate": 1e-4,
      "epochs": 3,
      "batch_size": 16
    }
  }'

# 3. ジョブ進捗確認
curl https://nemoclaw.your-org.com/v1/customizer/jobs/$JOB_ID

# 4. 推論で使用
curl -X POST https://nemoclaw.your-org.com/v1/inference \
  -d '{"model": "llama-3.3-70b-lora-$JOB_ID", "prompt": "..."}'

NemoClaw 経由なので Kubernetes 上のジョブ管理・GPU割当・進捗トラッキングは自動。Customizer は内部で NVIDIA Magnum 等のスケジューラと連携し、利用可能GPU を最適配分します。

コスト試算(クラウド・オンプレ)

シナリオGPU構成時間クラウド試算(AWS H100)オンプレ償却(DGX H100/5年)
LoRA / Llama 70B / 10万件H100 ×26h$300〜500≒ ¥6,000〜10,000
Full FT / Llama 70B / 10万件H100 ×848h$10,000〜15,000≒ ¥150,000〜250,000
LoRA / Nemotron 3 Super 120B / 10万件H100 ×412h$1,200〜2,000≒ ¥25,000〜40,000
Full FT / Nemotron 3 Super 120B / 10万件H100 ×1696h$40,000〜60,000≒ ¥600,000〜1,000,000

※クラウド試算は AWS p5.48xlarge(H100 8GPU = $98/h)等を基準。実値は時期・割引で変動。詳細はNemoClaw導入費用の完全ガイドを参照。

実装ベストプラクティス

  1. データ品質 > データ量:1,000件の高品質より10,000件の低品質はROIで劣る。
  2. LoRA rank は 8/16/32 から開始:64以上は過学習リスク。
  3. Eval セットを5〜10%確保:NeMo Evaluator で同時評価。
  4. Learning rate は base modelで変動:Llama は 1e-4、Nemotron 3 は 5e-5 が経験則。
  5. Guardrails 統合を前提:ファインチューニング後の安全性検証は必須。
  6. バージョン管理:Customizer はジョブIDで管理されるが、別途 W&B / MLflow 推奨。

関連記事