Nemotron推論プロファイル解説｜クラウド・ローカル・vLLMの選び方

推論プロファイルとは

NemoClawにおける「推論プロファイル」とは、AIエージェントのリクエストをどのモデル・どの実行環境に送るかを定義した設定です。NemoClawのコアコンポーネントであるOpenShellがすべての推論呼び出しをインターセプトし、プロファイルに従って適切なエンドポイントへルーティングします。

この仕組みにより、エージェントのコードを変更することなく、クラウド・ローカル・vLLMを透過的に切り替えることができます。

推論プロファイルはNemoClawの設定ファイル（blueprint.yaml）で指定します。環境変数や実行時オプションでも上書き可能で、開発・ステージング・本番で異なるプロファイルを使い分けることができます。

NemoClawが提供する推論プロファイルは現在3種類です。

プロファイル	モデル	実行場所	主な特徴
クラウドホスト型	Nemotron 3 Super 120B	build.nvidia.com	高精度・低セットアップ
ローカルNIM	任意のNIMモデル	自社サーバー	データ主権・低レイテンシ
vLLM	Nemotron 3 Nano 30B	自社GPU	軽量・コスト効率

クラウドホスト型プロファイル（Nemotron 3 Super 120B）

クラウドホスト型プロファイルは、NVIDIA公式APIプラットフォームbuild.nvidia.com経由でNemotron 3 Super 120Bを呼び出す方式です。

Nemotron 3 Super 120BはハイブリッドなMamba-Transformer MoE（Mixture of Experts）アーキテクチャを採用したモデルで、ベンチマーク「PinchBench」において85.6%のスコアを記録しており、これはオープンモデルの中で最高水準です。

項目	内容
モデル名	Nemotron 3 Super 120B
アーキテクチャ	ハイブリッドMamba-Transformer MoE
PinchBenchスコア	85.6%（オープンモデル最高）
APIエンドポイント	build.nvidia.com
ローカルGPU要件	不要（クラウド処理）
データの流れ	リクエスト内容がNVIDIAクラウドに送信される

クラウドホスト型は最も高い推論精度を実現しますが、入力データがNVIDIAのインフラに送信されます。機密情報を扱う業務には後述のローカルNIMプロファイルを検討してください。

クラウドホスト型が適しているシナリオ

次のような状況ではクラウドホスト型プロファイルが最適な選択です。

最高精度のモデルを低セットアップコストで利用したい
処理するデータに個人情報・機密情報が含まれない
試験導入・PoC（概念実証）段階でローカル環境を整備する前
ローカルGPUの調達コストを抑えたい

ローカルNIMプロファイル

ローカルNIMプロファイルは、自社のGPUサーバー上でNVIDIA NIM（NVIDIA Inference Microservices）コンテナを稼働させ、推論を完全にオンプレミスで行う方式です。

NIMはNVIDIAが提供するコンテナ形式の推論マイクロサービスで、DockerまたはKubernetes上で動作します。Nemotronをはじめとする各種LLMがNIMとして提供されています。

ローカルNIMプロファイルの主な特徴

データ完全ローカル化: リクエスト・レスポンスが外部に出ないため、個人情報保護法・社内データガバナンスポリシーに対応しやすい
低レイテンシ: ネットワーク往復が発生しないため、応答速度がクラウド型より速い場合がある
モデル選択の自由: NIMとして提供されているモデルなら任意に選択可能
インフラ管理コスト: サーバー・GPU・OS・コンテナ基盤の維持管理が必要

項目	内容
実行基盤	Docker / Kubernetes on 自社GPU
データの流れ	完全ローカル（外部送信なし）
推奨GPU	DGX Station / DGX Spark / RTX PRO 6000
セットアップ難度	中〜高（コンテナ運用知識が必要）
モデル更新	NIMコンテナを手動で更新

vLLMプロファイル（Nemotron 3 Nano 30B）

vLLMプロファイルは、オープンソースの高速推論エンジンvLLMを使用してNemotron 3 Nano 30Bを実行する方式です。

Nemotron 3 Nano 30BはSuper 120Bと比べてパラメータ数が少ない軽量モデルですが、一般的な業務タスクには十分な能力を持ちます。GeForce RTX 4090（24GB VRAM）でも量子化を適用することで動作させることができます。

vLLMプロファイルの主な特徴

コスト効率: コンシューマーGPU（GeForce RTX）でも動作可能なため、ハードウェアコストを抑えられる
オープンソース: vLLM自体はApache 2.0ライセンスで、追加ライセンス費用が不要
高スループット: vLLMはPagedAttentionによる効率的なメモリ管理で高いトークン生成速度を実現
コミュニティサポート: vLLMは活発なOSSコミュニティがあり、問題解決のリソースが豊富

項目	内容
推論エンジン	vLLM（OSS）
使用モデル	Nemotron 3 Nano 30B
最低VRAM	24GB（INT4量子化時は12GB程度）
データの流れ	完全ローカル
セットアップ難度	低〜中（pip install vllmで導入可能）

プロファイル選択の判断基準

3つのプロファイルをどの基準で選ぶか、主要な軸で整理します。

判断軸	クラウドホスト型	ローカルNIM	vLLM
推論精度	最高（120Bモデル）	高（任意モデル）	中（30Bモデル）
データ主権	低（外部送信あり）	高（ローカル完結）	高（ローカル完結）
初期コスト	低（GPUなし可）	高（DGX等が必要）	中（RTX4090程度）
レイテンシ	ネットワーク依存	低（ローカル処理）	低（ローカル処理）
運用コスト	APIトークン課金	電気代＋保守	電気代＋保守
セットアップ容易さ	容易	やや複雑	比較的容易

blueprint.yamlでの設定方法

NemoClawの推論プロファイルはblueprint.yamlファイルで設定します。以下に各プロファイルの基本的な設定例を示します。

クラウドホスト型プロファイルの設定例:

inference:
  profile: cloud
  model: nemotron-3-super-120b
  api_base: https://integrate.api.nvidia.com/v1
  api_key: ${NVIDIA_API_KEY}

ローカルNIMプロファイルの設定例:

inference:
  profile: local-nim
  endpoint: http://localhost:8000/v1
  model: nemotron-3-super-120b
  timeout: 120

vLLMプロファイルの設定例:

inference:
  profile: vllm
  endpoint: http://localhost:8080/v1
  model: nemotron-3-nano-30b
  max_tokens: 4096

OpenShellは設定ファイルのプロファイル指定を読み込み、エージェントからの推論リクエストを自動的に該当エンドポイントへルーティングします。エージェント側のコード変更は不要です。

よくある質問（FAQ）

Q クラウドホスト型とローカルNIMを環境ごとに切り替えることはできますか？

はい、可能です。blueprint.yamlで環境変数を参照する形式で記述すれば、開発環境ではvLLM、本番環境ではクラウドホスト型、といった切り替えが容易に実現できます。また、OpenShellのコマンドラインオプションで実行時にプロファイルを上書きすることもできます。

Q Nemotron 3 Super 120BとNemotron 3 Nano 30Bの実用上の精度差はどの程度ですか？

PinchBenchではSuper 120Bが85.6%を記録していますが、Nano 30Bのベンチマーク数値は現時点で公式に公開されていません。実用上は、複雑な推論・長い文脈処理・コード生成といったタスクではSuper 120Bが優位です。一方、定型的な文書作成・要約・Q&Aのような業務ではNano 30Bで十分なケースが多いです。ユースケースに応じてPoC（概念実証）で精度検証を行うことを推奨します。

Q vLLMプロファイルでNemotron以外のモデルを使用できますか？

vLLMはHugging Face形式のモデルをサポートしているため、技術的にはNemotron以外のモデルも使用可能です。ただし、NemoClawの公式サポート・最適化・テストはNemotronモデルに対して行われています。他モデルを使用する場合は動作保証外となる点に注意してください。

NemoClawナビで最新のAIエージェント情報をチェック。