Nemotron 3 SuperとNemotron 3 Ultraはどのような用途で使い分けますか？

Nemotron 3 Super 120Bは、大多数のエンタープライズ業務（文書処理・コード生成・カスタマーサポート自動化）で必要十分な精度を持ちます。Ultra 253Bが優位なのは、複雑な多段推論・高精度数学・超長文脈（1M tokens）処理・合成データ生成を行う研究・開発用途です。コストがSuper比で約3〜5倍かかるため、まずSuperで評価し、精度不足のタスクにのみUltraを使う段階的アプローチを推奨します。

Nemotron 3はGPT-4oやGemini 2 Ultraと比べてどの程度の精度ですか？

公式ベンチマーク（PinchBench）でNemotron 3 Super 120Bは85.6%を記録しており、GPT-4o（約86%）・Gemini 2 Ultra（約88%）と同等水準です。最大の差別化はローカル実行が可能な点であり、データ主権を維持しながらフロンティアモデル級の精度を利用できます。Ultraはこれらを上回るスコアを示すベンチマークも存在します。

Nemotron 3 Nano 30Bは日本語に対応していますか？

Nemotron 3 Nano 30Bは多言語対応で日本語も含まれます。ただし、英語中心で事前学習されているため、日本語専用モデル（Llama-3-Swallow等）と比べると細かい日本語ニュアンスで差が出ることがあります。日本語業務での本格利用には、NeMo Customizerを使った日本語データでのファインチューニングを検討してください。

Nemotron 3のライセンスは商用利用可能ですか？

Nemotron 3はNVIDIA Open Model Licenseで提供されており、商用利用が可能です。ただしNVIDIAの利用規約に基づき、モデルの再配布・競合サービスへの転用等には制限があります。エンタープライズ商用利用の詳細はNVIDIAのライセンスページを確認するか、NemoClawの商用サポートチャンネルにお問い合わせください。

NemoClawなしでNemotron 3だけを使うことはできますか？

はい、可能です。Nemotron 3はNIM APIとしてbuild.nvidia.comから直接呼び出せますし、Hugging Face形式でvLLMや他の推論エンジンからも利用できます。NemoClawは、複数エージェントの管理・セキュリティポリシー・マルチモデルルーティング等のエンタープライズ機能を追加するものです。単純なLLM API利用にはNemoClawは必須ではありませんが、業務システムへの組み込みにはNemoClawの活用を強く推奨します。

Nemotron 3完全ガイド｜Nano・Super・Ultraの性能比較とNemoClawでの活用法

Nemotron 3ファミリーの全体像

NVIDIA Nemotron 3は、2026年3月のGTC 2026で発表された次世代LLMシリーズです。従来のNemotron 2からアーキテクチャを根本から刷新し、ハイブリッド潜在MoE（Mixture of Experts）を採用することで、推論コストを抑えながら最高水準の精度を実現しています。

Nemotron 3ファミリーは3つのモデルサイズで構成されており、用途・予算・ハードウェア環境に応じて選択できます。

モデル名	パラメータ数	アーキテクチャ	主な用途	NemoClawプロファイル
Nemotron 3 Nano	30B	ハイブリッドMamba-Transformer MoE	エッジ推論・低コスト	vLLMプロファイル
Nemotron 3 Super	120B	ハイブリッドMamba-Transformer MoE	エンタープライズ標準	クラウドホスト / ローカルNIM
Nemotron 3 Ultra	253B	ハイブリッドMamba-Transformer MoE	最高精度・研究用途	ローカルNIM（大規模GPU必須）

Nemotron 3は3モデルともNVIDIA NIMコンテナとして提供されており、DockerまたはKubernetes環境で即座に展開できます。また、Hugging Face形式での公開も予定されているため、vLLMや他の推論エンジンからも利用可能です。

NemoClawとの連携については推論プロファイル選び方ガイド、NemoClawの基本概念についてはNemoClawとは何かの解説記事も参照してください。

Nemotron 3発表の背景とNVIDIAの戦略

NVIDIAがNemotron 3を発表した背景には、エンタープライズAI市場での「モデル主権（Model Sovereignty）」への需要拡大があります。多くの企業がデータをクラウドに送らずに高精度LLMを使いたいというニーズを持ち、NVIDIAはNemoClawとNemotron 3の組み合わせでこれに応えています。

NemoClawはAdobe・Salesforce・SAP・CrowdStrikeなど主要パートナーを擁し、NIMマイクロサービスとしてNemotron 3をオンプレミスで動かすエコシステムを構築しています。Nemotron 3はこのエコシステムの中核を担うモデルシリーズです。

Nemotron 2との比較：4倍スループット向上の仕組み

Nemotron 3はNemotron 2と比較して、同等のハードウェアで約4倍のスループット（トークン生成速度）を達成しています。この劇的な改善はハイブリッドアーキテクチャによるものです。

比較項目	Nemotron 2	Nemotron 3	改善率
アーキテクチャ	純粋Transformer	ハイブリッドMamba-Transformer MoE	—
スループット	基準値	約4倍	+300%
KVキャッシュメモリ	高消費	大幅削減（Mamba状態管理）	最大60%削減
長文脈処理	O(n²)注意機構	O(n)線形スキャン（Mambaブロック）	長文で顕著
PinchBenchスコア（120B）	非公開	85.6%	オープンモデル最高

スループット向上の主因はMambaブロックのレイテンシ特性にあります。Transformerの自己注意機構はシーケンス長の二乗でメモリが増大しますが、MambaはO(n)の線形スキャンでテキストを処理するため、長いコンテキストでも高速です。

ハイブリッド潜在MoEアーキテクチャの技術解説

Nemotron 3の核心技術は「ハイブリッド潜在MoE（Hybrid Latent Mixture of Experts）」アーキテクチャです。これはMambaベースのSSM（State Space Model）レイヤーとTransformerの注意機構レイヤーを交互に配置し、さらにMoEによるスパース活性化を組み合わせた設計です。

Mamba-Transformerハイブリッドの仕組み

従来のLLMはすべての層にTransformerの多頭注意機構（MHA）を使用しますが、Nemotron 3は以下のように層を混在させています。

Mambaブロック（約60%の層）: 線形時間複雑度で長文脈を処理。KVキャッシュ不要のため推論時のメモリ消費を大幅削減
Transformerブロック（約40%の層）: 全トークン間の注意計算が必要な複雑な推論タスクを担当
配置戦略: 入力に近い層はMamba中心、深い層はTransformer中心とすることで両者の長所を最大化

この設計により、単純な文書処理・要約・コード補完ではMambaの高速性が活き、複雑な多段推論・数学・論理問題ではTransformerの精度が補完します。

MoEスパース活性化によるコスト効率

MoE（Mixture of Experts）は、すべてのパラメータを毎回使わず、入力に応じて一部の「エキスパート」だけを活性化する仕組みです。Nemotron 3 Super 120Bは120Bのパラメータを持ちますが、1トークン処理時に実際に活性化するパラメータは約30B相当です。

これにより次の恩恵が得られます。

推論FLOPsを削減しながら高い表現力を維持
実効的な計算コストは30Bモデル並みでありながら、知識・推論能力は120B相当
バッチ処理での並列化効率が向上

MoEのエキスパート数と活性化率はモデルサイズによって異なります。Ultra 253Bでは更に多くのエキスパートを持ちますが、活性化率は同様に絞られているため、Ultra 253Bでも実効推論コストはSuper 120Bの2倍程度に抑えられています。

潜在圧縮（Latent Compression）の役割

「ハイブリッド潜在MoE」の「潜在」が指す技術は、入力表現を低次元の潜在空間に圧縮してからMoEルーターに渡す点にあります。この設計には以下のメリットがあります。

ルーターの安定性向上: 高次元の生の埋め込みベクトルよりも、圧縮された潜在表現の方がルーティング判断が安定する
通信コスト削減: 分散推論時のデバイス間テンソル転送量が減少
微調整（ファインチューニング）の効率化: 潜在空間での適応により、少ないデータで特定ドメインに適応できる

この特性はNemoClawのカスタムモデル設定においても重要で、企業独自データでのファインチューニング時に計算コストを抑えられます。

3モデルの詳細スペックとベンチマーク比較

Nemotron 3の3モデル（Nano・Super・Ultra）のスペックとベンチマーク結果を詳細に比較します。導入判断の参考にしてください。

Nemotron 3 Nano 30B：エッジ・低コスト推論

Nano 30BはNemotron 3ファミリーの中で最も軽量なモデルです。NemoClawのvLLMプロファイルでデフォルト使用されるモデルであり、コンシューマーGPUでも動作可能です。

項目	仕様
パラメータ数	30B（MoE活性化：約8B相当）
コンテキスト長	128K tokens
最低VRAM	24GB（FP16）、14GB（INT4量子化）
推奨GPU	RTX 4090、RTX PRO 6000（24GB）
ライセンス	NVIDIA Open Model License
MMLU（5-shot）	78.4%
HumanEval	62.3%
GSM8K	74.1%

Nano 30Bは定型業務（文書要約・メール生成・FAQ応答・コード補完）において十分な精度を持ちます。ハードウェア要件の詳細も参照してください。

Nemotron 3 Super 120B：エンタープライズ標準モデル

Super 120Bは現在のNemotron 3ファミリーで最も広く使われるモデルで、NemoClawのクラウドホスト型・ローカルNIMプロファイルでデフォルト採用されています。

項目	仕様
パラメータ数	120B（MoE活性化：約30B相当）
コンテキスト長	256K tokens
最低VRAM	4×80GB（H100/A100）またはDGX Spark
推奨GPU	DGX Station A100、DGX Spark、HGX H100
PinchBenchスコア	85.6%（オープンモデル最高）
MMLU（5-shot）	87.2%
HumanEval	79.8%
GSM8K	91.4%

Super 120BはGPT-4oやClaude 3.5 Sonnetと同等水準の精度を持ちながら、ローカル実行が可能という差別化要素を持ちます。DGX Sparkでの運用ガイドも合わせてご覧ください。

Nemotron 3 Ultra 253B：最高精度・研究用途

Ultra 253Bは研究機関・先端AI開発チーム向けの最大モデルです。NeMo Microservicesと組み合わせることで、合成データ生成・RLHF・評価用モデルとしても活用されます。

項目	仕様
パラメータ数	253B（MoE活性化：約60B相当）
コンテキスト長	1M tokens（Long-context版）
最低VRAM	8×80GB H100（NVLink）
推奨インフラ	DGX H100、HGX H200
MMLU（5-shot）	91.8%
HumanEval	88.6%
MATH	84.3%

Ultra 253BはGPU VPS環境での利用にはコスト面の検討が必要です。トータルコストガイドで費用シミュレーションを確認してください。

vLLM対応状況とNemoClawでの設定方法

Nemotron 3はvLLM（v0.6.0以降）で正式サポートされており、NemoClawのvLLMプロファイルと組み合わせることで高スループットの推論サーバーを構築できます。

vLLMでのNemotron 3起動手順

vLLMを使ってNemotron 3 Nanoを起動する基本手順は以下の通りです。

# vLLMインストール（CUDA 12.1以降が必要）
pip install vllm>=0.6.0

# Nemotron 3 Nano 30Bの起動（Hugging Face経由）
python -m vllm.entrypoints.openai.api_server \
  --model nvidia/Nemotron-3-Nano-30B \
  --tensor-parallel-size 2 \
  --max-model-len 65536 \
  --port 8080

起動後、NemoClawのblueprint.yamlでvLLMプロファイルを指定します。

inference:
  profile: vllm
  endpoint: http://localhost:8080/v1
  model: nvidia/Nemotron-3-Nano-30B
  max_tokens: 4096

tensor-parallel-sizeはGPUの枚数に合わせて設定します。RTX 4090を2枚使う場合は2、1枚の場合は1を指定してください。量子化（--quantization awq）を使うと1枚のRTX 4090（24GB）でもNano 30Bが動作します。

vLLM推論パフォーマンスのチューニング

Nemotron 3をvLLMで運用する際のパフォーマンスチューニングポイントを整理します。

パラメータ	推奨値	効果
--max-num-batched-tokens	8192〜32768	バッチサイズ最大化でスループット向上
--gpu-memory-utilization	0.85〜0.90	KVキャッシュへのVRAM割り当て最適化
--swap-space	8（GB）	KVキャッシュのCPU退避でOOM回避
--quantization	awq または fp8	VRAM使用量削減（精度わずかに低下）
--enable-chunked-prefill	true	長い入力のプリフィル待ち時間削減

詳細な費用計算はトータルコストガイドを、GPU選定はハードウェア要件の記事を参照してください。

NemoClawとの統合：推論プロファイル別の最適モデル選択

NemoClawはNemotron 3の3モデルすべてをサポートしており、推論プロファイルごとに最適なモデルが異なります。ここでは実際の導入シナリオに基づいた選択指針を説明します。

プロファイルとモデルの対応表

NemoClawプロファイル	推奨モデル	最適ユースケース	月額コスト目安
クラウドホスト型	Nemotron 3 Super 120B	PoC・試験導入・ハードウェア不要	API従量課金（$0.5〜2/100万tokens）
ローカルNIM（中規模）	Nemotron 3 Super 120B	データ主権必要・中規模リクエスト	DGX Spark電気代＋保守（月3〜8万円）
ローカルNIM（大規模）	Nemotron 3 Ultra 253B	最高精度・重要業務・研究	DGX H100×8（月20〜50万円）
vLLM	Nemotron 3 Nano 30B	コスト優先・定型業務・エッジ	RTX 4090×2 電気代（月1〜3万円）

コンサルティングサービスを利用することで、自社のリクエスト量・予算・データ機密性に合わせた最適モデルの選定支援を受けることができます。

マルチモデルルーティングの活用

NemoClawのOpenShellは、タスクの複雑度に応じて自動的にNano/Super/Ultraを切り替える「マルチモデルルーティング」をサポートします。

inference:
  routing:
    strategy: auto
    models:
      simple:   # 定型処理
        profile: vllm
        model: nvidia/Nemotron-3-Nano-30B
      standard: # 一般業務
        profile: cloud
        model: nemotron-3-super-120b
      complex:  # 高度な推論
        profile: local-nim
        model: nemotron-3-ultra-253b

このように設定することで、FAQへの定型応答はNano 30B（低コスト）、契約書レビューはSuper 120B（標準品質）、複雑な法的判断はUltra 253B（最高精度）と自動振り分けが可能です。API統合ガイドでルーティングの詳細設定を確認してください。

企業導入のロードマップと注意点

Nemotron 3をNemoClawで導入する際の段階的なアプローチと、よくある落とし穴について解説します。

フェーズ1：PoC（概念実証）段階

まずクラウドホスト型プロファイルでNemotron 3 Super 120BのPoC検証を行うことを推奨します。ハードウェア投資なしで精度・使い勝手を評価できます。

NemoClawインストールは1コマンドで完了
NVIDIA APIキーはbuild.nvidia.comで無料取得可能（月100万トークン無料枠あり）
blueprint.yamlでエージェントの動作範囲を限定してリスクを最小化
セキュリティ機能でデータアクセスポリシーを設定

フェーズ2：本番移行とモデル最適化

PoC評価後、本番移行では以下の点を検討します。

データ機密性評価: 外部送信不可の場合はローカルNIMへ移行。セキュリティ設計を確認
スループット要件: 同時リクエスト数に応じてGPU枚数を計算
モデルファインチューニング: 業種固有の語彙・フォーマットが必要な場合はNeMo Customizerを検討
コスト最適化: 用途別マルチモデルルーティングで不必要なUltra 253Bの使用を避ける

日本企業固有の導入事情は日本企業導入の詳細解説をご覧ください。

Nemotron 3完全ガイド｜Nano・Super・Ultraの性能比較とNemoClawでの活用法

Nemotron 3ファミリーの全体像

Nemotron 3発表の背景とNVIDIAの戦略

Nemotron 2との比較：4倍スループット向上の仕組み

ハイブリッド潜在MoEアーキテクチャの技術解説

Mamba-Transformerハイブリッドの仕組み

MoEスパース活性化によるコスト効率

潜在圧縮（Latent Compression）の役割

3モデルの詳細スペックとベンチマーク比較

Nemotron 3 Nano 30B：エッジ・低コスト推論

Nemotron 3 Super 120B：エンタープライズ標準モデル

Nemotron 3 Ultra 253B：最高精度・研究用途

vLLM対応状況とNemoClawでの設定方法

vLLMでのNemotron 3起動手順

vLLM推論パフォーマンスのチューニング

NemoClawとの統合：推論プロファイル別の最適モデル選択

プロファイルとモデルの対応表

マルチモデルルーティングの活用

企業導入のロードマップと注意点

フェーズ1：PoC（概念実証）段階

フェーズ2：本番移行とモデル最適化

よくある質問（FAQ）

NemoClawナビで最新のAIエージェント情報をチェック。

Nemotron 3ファミリーの全体像

Nemotron 3発表の背景とNVIDIAの戦略

Nemotron 2との比較：4倍スループット向上の仕組み

ハイブリッド潜在MoEアーキテクチャの技術解説

Mamba-Transformerハイブリッドの仕組み

MoEスパース活性化によるコスト効率

潜在圧縮（Latent Compression）の役割

3モデルの詳細スペックとベンチマーク比較

Nemotron 3 Nano 30B：エッジ・低コスト推論

Nemotron 3 Super 120B：エンタープライズ標準モデル

Nemotron 3 Ultra 253B：最高精度・研究用途

vLLM対応状況とNemoClawでの設定方法

vLLMでのNemotron 3起動手順

vLLM推論パフォーマンスのチューニング

NemoClawとの統合：推論プロファイル別の最適モデル選択

プロファイルとモデルの対応表

マルチモデルルーティングの活用

企業導入のロードマップと注意点

フェーズ1：PoC（概念実証）段階

フェーズ2：本番移行とモデル最適化

よくある質問（FAQ）

関連記事

NemoClawナビで最新のAIエージェント情報をチェック。