Llama Nemotron Super 49B v1.5 とは
Llama Nemotron Super 49B v1.5 は、NVIDIAがLlama 3.3 70B をベースにPost-Trainingで蒸留・最適化した49B規模の推論モデルです。v1.0からの改良版として2026年4月公開。コード生成・数学推論・複雑な推論タスクで高いベンチマーク値を示しつつ、推論コストはLlama 3.1 70B / 405Bより大幅に低い「コスパ最強帯」として人気を集めています。
スペック詳細
| 項目 | 仕様 |
|---|---|
| パラメータ数 | 49B |
| ベースモデル | Llama 3.3 70B(蒸留・最適化) |
| コンテキスト長 | 128K tokens |
| Post-Training | カスタムReasoning Dataset + RLHF |
| 推奨GPU | H100×2 / A100 80GB×2 / L40S×4 |
| 量子化対応 | FP8/INT8/Q4_K_M (GGUF) |
| 商用ライセンス | NVIDIA Open Model License(商用可) |
| HuggingFace | nvidia/Llama-3_3-Nemotron-Super-49B-v1.5 |
v1.0からv1.5の主な改善点
- 推論精度向上:MMLU 80.5 → 83.2(+2.7pt)、HumanEval 84.3 → 87.6(+3.3pt)
- 推論時間短縮:同一プロンプトでの平均推論時間が約15%短縮
- JSON Mode安定化:構造化出力の精度向上、JSONパースエラー率0.8% → 0.2%
- 多言語対応強化:日本語・中国語・韓国語の性能改善
- セキュリティ:プロンプトインジェクション耐性が向上
ベンチマーク値(v1.5)
| ベンチマーク | Super 49B v1.5 | Llama 3.1 70B | Mixtral 8x22B |
|---|---|---|---|
| MMLU | 83.2 | 82.1 | 77.8 |
| HumanEval | 87.6 | 80.5 | 76.0 |
| GSM8K | 94.8 | 92.0 | 88.4 |
| MATH | 62.1 | 52.0 | 41.8 |
| HumanEval+ | 83.5 | 76.2 | 71.3 |
49Bパラメータながら70Bクラスを上回るベンチマーク値を示し、コスパ重視の法人導入で第一候補に。
ダウンロード・利用方法
1. Hugging Face経由(OSS版)
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
"nvidia/Llama-3_3-Nemotron-Super-49B-v1.5",
torch_dtype="bfloat16",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("nvidia/Llama-3_3-Nemotron-Super-49B-v1.5")2. NVIDIA NIM経由
NVIDIA build.ai または自社Kubernetesクラスタに NIM コンテナで配信。最適化推論で2-4倍高速。
3. Ollama経由(量子化版)
ollama pull nemotron-super:49b-v1.5-q42026年5月時点でOllama公式リポジトリに登録済。Q4_K_M で約30GB、RTX 4090 1基でも動作可能。
商用利用ライセンス
NVIDIA Open Model License(商用可)で提供されます。主な条件:
- 商用利用:○許可
- 再配布:○許可(ライセンス文の同梱必須)
- 派生モデル:○許可(モデル名にNemotronを含めることが推奨)
- 商標:NVIDIAのロゴ・商標は使用不可(モデル名は表示可)
- 禁止事項:NVIDIA製品との競合・違法用途・誤情報生成等
- 表示義務:「Powered by NVIDIA Nemotron」相当の表記推奨
OpenAI/Anthropic商用API利用と比較して、自社サーバーでのフル制御が可能な点が最大のメリット。
主要活用シーン
- コード生成:HumanEval 87.6でGPT-4oに迫る性能。社内コードアシスタント・コードレビュー支援
- 業務文書要約・分析:128K context長でレポート・契約書の長文解析
- カスタマーサポート:RAG基盤と組み合わせて高精度な一次応答
- 専門ドメイン:医療・法律・金融等の専門領域でファインチューニング元モデルとして
- マルチエージェント基盤:OrchestratorまたはWorkerとして配置