Llama Nemotron Post-Training Datasetとは
NVIDIA Llama Nemotron Post-Training Datasetは、Llama Nemotronシリーズ(Nano/Super/Ultra)の高い推論性能を実現するために使われた事後学習データセットです。NVIDIA公式がHugging Faceで公開しており、Apache 2.0ライセンスで自社モデルのファインチューニングにも活用可能。「Efficient Reasoning Models」を構築するための事実上のオープンスタンダードとして注目されています。
データセット構造
| カテゴリ | 件数 | 内容 |
|---|---|---|
| SFT (Supervised Fine-Tuning) | 約3M件 | 命令応答ペア(複雑推論含む) |
| RLHF Preference Data | 約500K件 | 選好データ(A vs B評価) |
| Reasoning Trajectories | 約200K件 | 多段階推論の思考過程ログ |
| Code Generation | 約400K件 | コード生成タスク |
| Math Problems | 約150K件 | 数学問題と解答プロセス |
| Multi-turn Dialog | 約250K件 | マルチターン対話 |
合計約4.5M件の事後学習データを提供。SFT + RLHF + Reasoning の3段階で構成される現代的な事後学習フローに対応。
Efficient Reasoning Models との関係
Efficient Reasoning Modelsは「小さなパラメータでも高い推論能力を発揮するモデル」の総称で、NVIDIAが提唱する概念。Llama Nemotron Nano 9B のような9B規模のモデルが70B規模のLlama 3.1 と同等の推論性能を発揮できる秘訣は、このPost-Training Datasetにあります。
- Chain-of-Thought強化:多段階推論の思考過程を学習させることで、小さなモデルでも高い精度を達成
- Distillation:大型モデル(Ultra)の出力を Nano/Super に蒸留
- Specialized Tasks:コード・数学・推論の3領域に特化したデータで偏重学習
- Multi-stage Training:SFT → RLHF → Reasoning Distillation の3段階で性能向上
利用方法
Hugging Faceからダウンロード
from datasets import load_dataset
# SFTデータ
sft = load_dataset("nvidia/Llama-Nemotron-Post-Training-Dataset", "SFT")
# RLHF Preferenceデータ
pref = load_dataset("nvidia/Llama-Nemotron-Post-Training-Dataset", "RLHF")
# Reasoning Trajectoriesデータ
reasoning = load_dataset("nvidia/Llama-Nemotron-Post-Training-Dataset", "Reasoning")自社モデル学習への適用
標準的な使い方は以下のステップ:
- ベースモデル(Llama 3.x / Mistral 等)を選定
- SFTデータで命令応答能力を学習(H100×8基で1-2週間)
- RLHF Preferenceデータでアライメント(H100×8基で3-7日)
- Reasoning Trajectoriesで推論能力を強化(H100×8基で5-10日)
- NeMo Aligner でフルファインチューニング
ライセンスと商用利用
Apache 2.0 ライセンスで提供されており、商用利用・改変・再配布が可能です。注意点:
- 商用利用:○許可(自社プロダクトに組み込み可能)
- 派生データセット:○許可(NVIDIA帰属表記推奨)
- 派生モデル:○許可(OSS/商用問わず)
- 禁止事項:違法用途・誤情報生成等
自社モデル構築への応用
応用パターン1:業界特化モデル
ベースモデル(Llama 3.3 / Nemotron Super)に、自社データ+Llama Nemotron Post-Training Datasetのサブセットを混合して学習。医療・金融・法律等の特化モデル構築に有効。
応用パターン2:日本語特化モデル
Nemotron Nano 9B v2 Japanese と類似の構成で、Post-Training Datasetの日本語サブセットを増強。自社の日本語特化AIアシスタント構築。
応用パターン3:エージェント特化モデル
Reasoning Trajectoriesを増量し、AIエージェント用途に特化したモデル構築。マルチエージェント環境で動作する推論モデルの基盤。
学習コストの目安
| 規模 | 必要GPU時間 | クラウドコスト |
|---|---|---|
| LoRA Fine-Tuning(9B規模) | H100×2基 × 24時間 | $400-800 |
| フルSFT(9B規模) | H100×8基 × 3-5日 | $8,000-15,000 |
| フルSFT+RLHF(49B規模) | H100×16基 × 2-3週間 | $80,000-150,000 |
| From-Scratch(70B規模) | H100×64基 × 1-2ヶ月 | $500,000-1,500,000 |