Llama Nemotron Super 49B v1.5 とは

Llama Nemotron Super 49B v1.5 は、NVIDIAがLlama 3.3 70B をベースにPost-Trainingで蒸留・最適化した49B規模の推論モデルです。v1.0からの改良版として2026年4月公開。コード生成・数学推論・複雑な推論タスクで高いベンチマーク値を示しつつ、推論コストはLlama 3.1 70B / 405Bより大幅に低い「コスパ最強帯」として人気を集めています。

スペック詳細

項目仕様
パラメータ数49B
ベースモデルLlama 3.3 70B(蒸留・最適化)
コンテキスト長128K tokens
Post-TrainingカスタムReasoning Dataset + RLHF
推奨GPUH100×2 / A100 80GB×2 / L40S×4
量子化対応FP8/INT8/Q4_K_M (GGUF)
商用ライセンスNVIDIA Open Model License(商用可)
HuggingFacenvidia/Llama-3_3-Nemotron-Super-49B-v1.5

v1.0からv1.5の主な改善点

  • 推論精度向上:MMLU 80.5 → 83.2(+2.7pt)、HumanEval 84.3 → 87.6(+3.3pt)
  • 推論時間短縮:同一プロンプトでの平均推論時間が約15%短縮
  • JSON Mode安定化:構造化出力の精度向上、JSONパースエラー率0.8% → 0.2%
  • 多言語対応強化:日本語・中国語・韓国語の性能改善
  • セキュリティ:プロンプトインジェクション耐性が向上

ベンチマーク値(v1.5)

ベンチマークSuper 49B v1.5Llama 3.1 70BMixtral 8x22B
MMLU83.282.177.8
HumanEval87.680.576.0
GSM8K94.892.088.4
MATH62.152.041.8
HumanEval+83.576.271.3

49Bパラメータながら70Bクラスを上回るベンチマーク値を示し、コスパ重視の法人導入で第一候補に。

ダウンロード・利用方法

1. Hugging Face経由(OSS版)

from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
    "nvidia/Llama-3_3-Nemotron-Super-49B-v1.5",
    torch_dtype="bfloat16",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("nvidia/Llama-3_3-Nemotron-Super-49B-v1.5")

2. NVIDIA NIM経由

NVIDIA build.ai または自社Kubernetesクラスタに NIM コンテナで配信。最適化推論で2-4倍高速。

3. Ollama経由(量子化版)

ollama pull nemotron-super:49b-v1.5-q4

2026年5月時点でOllama公式リポジトリに登録済。Q4_K_M で約30GB、RTX 4090 1基でも動作可能。

商用利用ライセンス

NVIDIA Open Model License(商用可)で提供されます。主な条件:

  1. 商用利用:○許可
  2. 再配布:○許可(ライセンス文の同梱必須)
  3. 派生モデル:○許可(モデル名にNemotronを含めることが推奨)
  4. 商標:NVIDIAのロゴ・商標は使用不可(モデル名は表示可)
  5. 禁止事項:NVIDIA製品との競合・違法用途・誤情報生成等
  6. 表示義務:「Powered by NVIDIA Nemotron」相当の表記推奨

OpenAI/Anthropic商用API利用と比較して、自社サーバーでのフル制御が可能な点が最大のメリット。

主要活用シーン

  1. コード生成:HumanEval 87.6でGPT-4oに迫る性能。社内コードアシスタント・コードレビュー支援
  2. 業務文書要約・分析:128K context長でレポート・契約書の長文解析
  3. カスタマーサポート:RAG基盤と組み合わせて高精度な一次応答
  4. 専門ドメイン:医療・法律・金融等の専門領域でファインチューニング元モデルとして
  5. マルチエージェント基盤:OrchestratorまたはWorkerとして配置