NeMo Customizer とは
NeMo Customizer は NeMo Microservices GA に含まれる、エンタープライズ向けファインチューニングサービスです。OSS既存のフレームワーク(Hugging Face Transformers、Axolotl、Unsloth等)と異なり、RBAC・observability・本番運用前提の SLA が組み込まれている点が最大の特徴です。
対応ベースモデルは Llama・Phi・Gemma・Mistral・Llama Nemotron Ultra・Nemotron 3 Nano/Super/Nano Omni等の主要オープンモデル。NemoClaw からシームレスに呼び出せ、ファインチューニング後のモデルはそのまま本番推論に流せます。
ファインチューニング手法の使い分け
| 手法 | 更新パラメータ | 必要GPU | 所要時間(10万件) | 精度 | 用途 |
|---|---|---|---|---|---|
| LoRA | 0.1〜2% | 1〜2 GPU | 2〜8時間 | ★★★☆☆ | 軽量・低コスト・複数LoRAスイッチ |
| QLoRA | 0.1〜2%(4bit量子化) | 1 GPU | 4〜12時間 | ★★★☆☆ | 最小コスト・コンシューマGPU可 |
| PEFT (P-tuning等) | 0.01〜0.5% | 1〜2 GPU | 1〜4時間 | ★★☆☆☆ | プロンプト調整・最軽量 |
| Full Fine-tuning | 100% | 4〜32 GPU | 24〜120時間 | ★★★★★ | 本格カスタム・大規模データ |
| DPO/RLHF | 10〜100% | 4〜16 GPU | 48〜240時間 | ★★★★☆ | 嗜好性アラインメント |
商用エンタープライズ案件では LoRA から始めて、精度不足の場合に Full FT に切替えるのが定石。詳細はPoCの進め方を参照。
実装手順(LoRA on Llama 3 70B)
NeMo Customizer を使った標準的なLoRAファインチューニング手順:
# 1. データセット準備(JSONL形式)
{"prompt":"質問1","response":"回答1"}
{"prompt":"質問2","response":"回答2"}
...
# 2. Customizer API呼び出し(NemoClaw経由)
curl -X POST https://nemoclaw.your-org.com/v1/customizer/jobs \
-H "Authorization: Bearer $TOKEN" \
-d '{
"base_model": "meta-llama/Llama-3.3-70B-Instruct",
"method": "lora",
"dataset_uri": "s3://your-bucket/training.jsonl",
"hyperparameters": {
"lora_rank": 16,
"lora_alpha": 32,
"learning_rate": 1e-4,
"epochs": 3,
"batch_size": 16
}
}'
# 3. ジョブ進捗確認
curl https://nemoclaw.your-org.com/v1/customizer/jobs/$JOB_ID
# 4. 推論で使用
curl -X POST https://nemoclaw.your-org.com/v1/inference \
-d '{"model": "llama-3.3-70b-lora-$JOB_ID", "prompt": "..."}'
NemoClaw 経由なので Kubernetes 上のジョブ管理・GPU割当・進捗トラッキングは自動。Customizer は内部で NVIDIA Magnum 等のスケジューラと連携し、利用可能GPU を最適配分します。
コスト試算(クラウド・オンプレ)
| シナリオ | GPU構成 | 時間 | クラウド試算(AWS H100) | オンプレ償却(DGX H100/5年) |
|---|---|---|---|---|
| LoRA / Llama 70B / 10万件 | H100 ×2 | 6h | $300〜500 | ≒ ¥6,000〜10,000 |
| Full FT / Llama 70B / 10万件 | H100 ×8 | 48h | $10,000〜15,000 | ≒ ¥150,000〜250,000 |
| LoRA / Nemotron 3 Super 120B / 10万件 | H100 ×4 | 12h | $1,200〜2,000 | ≒ ¥25,000〜40,000 |
| Full FT / Nemotron 3 Super 120B / 10万件 | H100 ×16 | 96h | $40,000〜60,000 | ≒ ¥600,000〜1,000,000 |
※クラウド試算は AWS p5.48xlarge(H100 8GPU = $98/h)等を基準。実値は時期・割引で変動。詳細はNemoClaw導入費用の完全ガイドを参照。
実装ベストプラクティス
- データ品質 > データ量:1,000件の高品質より10,000件の低品質はROIで劣る。
- LoRA rank は 8/16/32 から開始:64以上は過学習リスク。
- Eval セットを5〜10%確保:NeMo Evaluator で同時評価。
- Learning rate は base modelで変動:Llama は 1e-4、Nemotron 3 は 5e-5 が経験則。
- Guardrails 統合を前提:ファインチューニング後の安全性検証は必須。
- バージョン管理:Customizer はジョブIDで管理されるが、別途 W&B / MLflow 推奨。