Llama Nemotron Post-Training Datasetとは

NVIDIA Llama Nemotron Post-Training Datasetは、Llama Nemotronシリーズ(Nano/Super/Ultra)の高い推論性能を実現するために使われた事後学習データセットです。NVIDIA公式がHugging Faceで公開しており、Apache 2.0ライセンスで自社モデルのファインチューニングにも活用可能。「Efficient Reasoning Models」を構築するための事実上のオープンスタンダードとして注目されています。

データセット構造

カテゴリ件数内容
SFT (Supervised Fine-Tuning)約3M件命令応答ペア(複雑推論含む)
RLHF Preference Data約500K件選好データ(A vs B評価)
Reasoning Trajectories約200K件多段階推論の思考過程ログ
Code Generation約400K件コード生成タスク
Math Problems約150K件数学問題と解答プロセス
Multi-turn Dialog約250K件マルチターン対話

合計約4.5M件の事後学習データを提供。SFT + RLHF + Reasoning の3段階で構成される現代的な事後学習フローに対応。

Efficient Reasoning Models との関係

Efficient Reasoning Modelsは「小さなパラメータでも高い推論能力を発揮するモデル」の総称で、NVIDIAが提唱する概念。Llama Nemotron Nano 9B のような9B規模のモデルが70B規模のLlama 3.1 と同等の推論性能を発揮できる秘訣は、このPost-Training Datasetにあります。

  • Chain-of-Thought強化:多段階推論の思考過程を学習させることで、小さなモデルでも高い精度を達成
  • Distillation:大型モデル(Ultra)の出力を Nano/Super に蒸留
  • Specialized Tasks:コード・数学・推論の3領域に特化したデータで偏重学習
  • Multi-stage Training:SFT → RLHF → Reasoning Distillation の3段階で性能向上

利用方法

Hugging Faceからダウンロード

from datasets import load_dataset

# SFTデータ
sft = load_dataset("nvidia/Llama-Nemotron-Post-Training-Dataset", "SFT")

# RLHF Preferenceデータ
pref = load_dataset("nvidia/Llama-Nemotron-Post-Training-Dataset", "RLHF")

# Reasoning Trajectoriesデータ
reasoning = load_dataset("nvidia/Llama-Nemotron-Post-Training-Dataset", "Reasoning")

自社モデル学習への適用

標準的な使い方は以下のステップ:

  1. ベースモデル(Llama 3.x / Mistral 等)を選定
  2. SFTデータで命令応答能力を学習(H100×8基で1-2週間)
  3. RLHF Preferenceデータでアライメント(H100×8基で3-7日)
  4. Reasoning Trajectoriesで推論能力を強化(H100×8基で5-10日)
  5. NeMo Aligner でフルファインチューニング

ライセンスと商用利用

Apache 2.0 ライセンスで提供されており、商用利用・改変・再配布が可能です。注意点:

  • 商用利用:○許可(自社プロダクトに組み込み可能)
  • 派生データセット:○許可(NVIDIA帰属表記推奨)
  • 派生モデル:○許可(OSS/商用問わず)
  • 禁止事項:違法用途・誤情報生成等

自社モデル構築への応用

応用パターン1:業界特化モデル

ベースモデル(Llama 3.3 / Nemotron Super)に、自社データ+Llama Nemotron Post-Training Datasetのサブセットを混合して学習。医療・金融・法律等の特化モデル構築に有効。

応用パターン2:日本語特化モデル

Nemotron Nano 9B v2 Japanese と類似の構成で、Post-Training Datasetの日本語サブセットを増強。自社の日本語特化AIアシスタント構築。

応用パターン3:エージェント特化モデル

Reasoning Trajectoriesを増量し、AIエージェント用途に特化したモデル構築。マルチエージェント環境で動作する推論モデルの基盤。

学習コストの目安

規模必要GPU時間クラウドコスト
LoRA Fine-Tuning(9B規模)H100×2基 × 24時間$400-800
フルSFT(9B規模)H100×8基 × 3-5日$8,000-15,000
フルSFT+RLHF(49B規模)H100×16基 × 2-3週間$80,000-150,000
From-Scratch(70B規模)H100×64基 × 1-2ヶ月$500,000-1,500,000