Nemotron 3ファミリーの全体像
NVIDIA Nemotron 3は、2026年3月のGTC 2026で発表された次世代LLMシリーズです。従来のNemotron 2からアーキテクチャを根本から刷新し、ハイブリッド潜在MoE(Mixture of Experts)を採用することで、推論コストを抑えながら最高水準の精度を実現しています。
Nemotron 3ファミリーは3つのモデルサイズで構成されており、用途・予算・ハードウェア環境に応じて選択できます。
| モデル名 | パラメータ数 | アーキテクチャ | 主な用途 | NemoClawプロファイル |
|---|---|---|---|---|
| Nemotron 3 Nano | 30B | ハイブリッドMamba-Transformer MoE | エッジ推論・低コスト | vLLMプロファイル |
| Nemotron 3 Super | 120B | ハイブリッドMamba-Transformer MoE | エンタープライズ標準 | クラウドホスト / ローカルNIM |
| Nemotron 3 Ultra | 253B | ハイブリッドMamba-Transformer MoE | 最高精度・研究用途 | ローカルNIM(大規模GPU必須) |
Nemotron 3は3モデルともNVIDIA NIMコンテナとして提供されており、DockerまたはKubernetes環境で即座に展開できます。また、Hugging Face形式での公開も予定されているため、vLLMや他の推論エンジンからも利用可能です。
NemoClawとの連携については推論プロファイル選び方ガイド、NemoClawの基本概念についてはNemoClawとは何かの解説記事も参照してください。
Nemotron 3発表の背景とNVIDIAの戦略
NVIDIAがNemotron 3を発表した背景には、エンタープライズAI市場での「モデル主権(Model Sovereignty)」への需要拡大があります。多くの企業がデータをクラウドに送らずに高精度LLMを使いたいというニーズを持ち、NVIDIAはNemoClawとNemotron 3の組み合わせでこれに応えています。
NemoClawはAdobe・Salesforce・SAP・CrowdStrikeなど主要パートナーを擁し、NIMマイクロサービスとしてNemotron 3をオンプレミスで動かすエコシステムを構築しています。Nemotron 3はこのエコシステムの中核を担うモデルシリーズです。
Nemotron 2との比較:4倍スループット向上の仕組み
Nemotron 3はNemotron 2と比較して、同等のハードウェアで約4倍のスループット(トークン生成速度)を達成しています。この劇的な改善はハイブリッドアーキテクチャによるものです。
| 比較項目 | Nemotron 2 | Nemotron 3 | 改善率 |
|---|---|---|---|
| アーキテクチャ | 純粋Transformer | ハイブリッドMamba-Transformer MoE | — |
| スループット | 基準値 | 約4倍 | +300% |
| KVキャッシュメモリ | 高消費 | 大幅削減(Mamba状態管理) | 最大60%削減 |
| 長文脈処理 | O(n²)注意機構 | O(n)線形スキャン(Mambaブロック) | 長文で顕著 |
| PinchBenchスコア(120B) | 非公開 | 85.6% | オープンモデル最高 |
スループット向上の主因はMambaブロックのレイテンシ特性にあります。Transformerの自己注意機構はシーケンス長の二乗でメモリが増大しますが、MambaはO(n)の線形スキャンでテキストを処理するため、長いコンテキストでも高速です。
ハイブリッド潜在MoEアーキテクチャの技術解説
Nemotron 3の核心技術は「ハイブリッド潜在MoE(Hybrid Latent Mixture of Experts)」アーキテクチャです。これはMambaベースのSSM(State Space Model)レイヤーとTransformerの注意機構レイヤーを交互に配置し、さらにMoEによるスパース活性化を組み合わせた設計です。
Mamba-Transformerハイブリッドの仕組み
従来のLLMはすべての層にTransformerの多頭注意機構(MHA)を使用しますが、Nemotron 3は以下のように層を混在させています。
- Mambaブロック(約60%の層): 線形時間複雑度で長文脈を処理。KVキャッシュ不要のため推論時のメモリ消費を大幅削減
- Transformerブロック(約40%の層): 全トークン間の注意計算が必要な複雑な推論タスクを担当
- 配置戦略: 入力に近い層はMamba中心、深い層はTransformer中心とすることで両者の長所を最大化
この設計により、単純な文書処理・要約・コード補完ではMambaの高速性が活き、複雑な多段推論・数学・論理問題ではTransformerの精度が補完します。
MoEスパース活性化によるコスト効率
MoE(Mixture of Experts)は、すべてのパラメータを毎回使わず、入力に応じて一部の「エキスパート」だけを活性化する仕組みです。Nemotron 3 Super 120Bは120Bのパラメータを持ちますが、1トークン処理時に実際に活性化するパラメータは約30B相当です。
これにより次の恩恵が得られます。
- 推論FLOPsを削減しながら高い表現力を維持
- 実効的な計算コストは30Bモデル並みでありながら、知識・推論能力は120B相当
- バッチ処理での並列化効率が向上
MoEのエキスパート数と活性化率はモデルサイズによって異なります。Ultra 253Bでは更に多くのエキスパートを持ちますが、活性化率は同様に絞られているため、Ultra 253Bでも実効推論コストはSuper 120Bの2倍程度に抑えられています。
潜在圧縮(Latent Compression)の役割
「ハイブリッド潜在MoE」の「潜在」が指す技術は、入力表現を低次元の潜在空間に圧縮してからMoEルーターに渡す点にあります。この設計には以下のメリットがあります。
- ルーターの安定性向上: 高次元の生の埋め込みベクトルよりも、圧縮された潜在表現の方がルーティング判断が安定する
- 通信コスト削減: 分散推論時のデバイス間テンソル転送量が減少
- 微調整(ファインチューニング)の効率化: 潜在空間での適応により、少ないデータで特定ドメインに適応できる
この特性はNemoClawのカスタムモデル設定においても重要で、企業独自データでのファインチューニング時に計算コストを抑えられます。
3モデルの詳細スペックとベンチマーク比較
Nemotron 3の3モデル(Nano・Super・Ultra)のスペックとベンチマーク結果を詳細に比較します。導入判断の参考にしてください。
Nemotron 3 Nano 30B:エッジ・低コスト推論
Nano 30BはNemotron 3ファミリーの中で最も軽量なモデルです。NemoClawのvLLMプロファイルでデフォルト使用されるモデルであり、コンシューマーGPUでも動作可能です。
| 項目 | 仕様 |
|---|---|
| パラメータ数 | 30B(MoE活性化:約8B相当) |
| コンテキスト長 | 128K tokens |
| 最低VRAM | 24GB(FP16)、14GB(INT4量子化) |
| 推奨GPU | RTX 4090、RTX PRO 6000(24GB) |
| ライセンス | NVIDIA Open Model License |
| MMLU(5-shot) | 78.4% |
| HumanEval | 62.3% |
| GSM8K | 74.1% |
Nano 30Bは定型業務(文書要約・メール生成・FAQ応答・コード補完)において十分な精度を持ちます。ハードウェア要件の詳細も参照してください。
Nemotron 3 Super 120B:エンタープライズ標準モデル
Super 120Bは現在のNemotron 3ファミリーで最も広く使われるモデルで、NemoClawのクラウドホスト型・ローカルNIMプロファイルでデフォルト採用されています。
| 項目 | 仕様 |
|---|---|
| パラメータ数 | 120B(MoE活性化:約30B相当) |
| コンテキスト長 | 256K tokens |
| 最低VRAM | 4×80GB(H100/A100)またはDGX Spark |
| 推奨GPU | DGX Station A100、DGX Spark、HGX H100 |
| PinchBenchスコア | 85.6%(オープンモデル最高) |
| MMLU(5-shot) | 87.2% |
| HumanEval | 79.8% |
| GSM8K | 91.4% |
Super 120BはGPT-4oやClaude 3.5 Sonnetと同等水準の精度を持ちながら、ローカル実行が可能という差別化要素を持ちます。DGX Sparkでの運用ガイドも合わせてご覧ください。
Nemotron 3 Ultra 253B:最高精度・研究用途
Ultra 253Bは研究機関・先端AI開発チーム向けの最大モデルです。NeMo Microservicesと組み合わせることで、合成データ生成・RLHF・評価用モデルとしても活用されます。
| 項目 | 仕様 |
|---|---|
| パラメータ数 | 253B(MoE活性化:約60B相当) |
| コンテキスト長 | 1M tokens(Long-context版) |
| 最低VRAM | 8×80GB H100(NVLink) |
| 推奨インフラ | DGX H100、HGX H200 |
| MMLU(5-shot) | 91.8% |
| HumanEval | 88.6% |
| MATH | 84.3% |
Ultra 253BはGPU VPS環境での利用にはコスト面の検討が必要です。トータルコストガイドで費用シミュレーションを確認してください。
vLLM対応状況とNemoClawでの設定方法
Nemotron 3はvLLM(v0.6.0以降)で正式サポートされており、NemoClawのvLLMプロファイルと組み合わせることで高スループットの推論サーバーを構築できます。
vLLMでのNemotron 3起動手順
vLLMを使ってNemotron 3 Nanoを起動する基本手順は以下の通りです。
# vLLMインストール(CUDA 12.1以降が必要)
pip install vllm>=0.6.0
# Nemotron 3 Nano 30Bの起動(Hugging Face経由)
python -m vllm.entrypoints.openai.api_server \
--model nvidia/Nemotron-3-Nano-30B \
--tensor-parallel-size 2 \
--max-model-len 65536 \
--port 8080
起動後、NemoClawのblueprint.yamlでvLLMプロファイルを指定します。
inference:
profile: vllm
endpoint: http://localhost:8080/v1
model: nvidia/Nemotron-3-Nano-30B
max_tokens: 4096
tensor-parallel-sizeはGPUの枚数に合わせて設定します。RTX 4090を2枚使う場合は2、1枚の場合は1を指定してください。量子化(--quantization awq)を使うと1枚のRTX 4090(24GB)でもNano 30Bが動作します。
vLLM推論パフォーマンスのチューニング
Nemotron 3をvLLMで運用する際のパフォーマンスチューニングポイントを整理します。
| パラメータ | 推奨値 | 効果 |
|---|---|---|
| --max-num-batched-tokens | 8192〜32768 | バッチサイズ最大化でスループット向上 |
| --gpu-memory-utilization | 0.85〜0.90 | KVキャッシュへのVRAM割り当て最適化 |
| --swap-space | 8(GB) | KVキャッシュのCPU退避でOOM回避 |
| --quantization | awq または fp8 | VRAM使用量削減(精度わずかに低下) |
| --enable-chunked-prefill | true | 長い入力のプリフィル待ち時間削減 |
詳細な費用計算はトータルコストガイドを、GPU選定はハードウェア要件の記事を参照してください。
NemoClawとの統合:推論プロファイル別の最適モデル選択
NemoClawはNemotron 3の3モデルすべてをサポートしており、推論プロファイルごとに最適なモデルが異なります。ここでは実際の導入シナリオに基づいた選択指針を説明します。
プロファイルとモデルの対応表
| NemoClawプロファイル | 推奨モデル | 最適ユースケース | 月額コスト目安 |
|---|---|---|---|
| クラウドホスト型 | Nemotron 3 Super 120B | PoC・試験導入・ハードウェア不要 | API従量課金($0.5〜2/100万tokens) |
| ローカルNIM(中規模) | Nemotron 3 Super 120B | データ主権必要・中規模リクエスト | DGX Spark電気代+保守(月3〜8万円) |
| ローカルNIM(大規模) | Nemotron 3 Ultra 253B | 最高精度・重要業務・研究 | DGX H100×8(月20〜50万円) |
| vLLM | Nemotron 3 Nano 30B | コスト優先・定型業務・エッジ | RTX 4090×2 電気代(月1〜3万円) |
コンサルティングサービスを利用することで、自社のリクエスト量・予算・データ機密性に合わせた最適モデルの選定支援を受けることができます。
マルチモデルルーティングの活用
NemoClawのOpenShellは、タスクの複雑度に応じて自動的にNano/Super/Ultraを切り替える「マルチモデルルーティング」をサポートします。
inference:
routing:
strategy: auto
models:
simple: # 定型処理
profile: vllm
model: nvidia/Nemotron-3-Nano-30B
standard: # 一般業務
profile: cloud
model: nemotron-3-super-120b
complex: # 高度な推論
profile: local-nim
model: nemotron-3-ultra-253b
このように設定することで、FAQへの定型応答はNano 30B(低コスト)、契約書レビューはSuper 120B(標準品質)、複雑な法的判断はUltra 253B(最高精度)と自動振り分けが可能です。API統合ガイドでルーティングの詳細設定を確認してください。
企業導入のロードマップと注意点
Nemotron 3をNemoClawで導入する際の段階的なアプローチと、よくある落とし穴について解説します。
フェーズ1:PoC(概念実証)段階
まずクラウドホスト型プロファイルでNemotron 3 Super 120BのPoC検証を行うことを推奨します。ハードウェア投資なしで精度・使い勝手を評価できます。
- NemoClawインストールは1コマンドで完了
- NVIDIA APIキーはbuild.nvidia.comで無料取得可能(月100万トークン無料枠あり)
- blueprint.yamlでエージェントの動作範囲を限定してリスクを最小化
- セキュリティ機能でデータアクセスポリシーを設定
フェーズ2:本番移行とモデル最適化
PoC評価後、本番移行では以下の点を検討します。
- データ機密性評価: 外部送信不可の場合はローカルNIMへ移行。セキュリティ設計を確認
- スループット要件: 同時リクエスト数に応じてGPU枚数を計算
- モデルファインチューニング: 業種固有の語彙・フォーマットが必要な場合はNeMo Customizerを検討
- コスト最適化: 用途別マルチモデルルーティングで不必要なUltra 253Bの使用を避ける
日本企業固有の導入事情は日本企業導入の詳細解説をご覧ください。