推論プロファイルとは

NemoClawにおける「推論プロファイル」とは、AIエージェントのリクエストをどのモデル・どの実行環境に送るかを定義した設定です。NemoClawのコアコンポーネントであるOpenShellがすべての推論呼び出しをインターセプトし、プロファイルに従って適切なエンドポイントへルーティングします。

この仕組みにより、エージェントのコードを変更することなく、クラウド・ローカル・vLLMを透過的に切り替えることができます。

推論プロファイルはNemoClawの設定ファイル(blueprint.yaml)で指定します。環境変数や実行時オプションでも上書き可能で、開発・ステージング・本番で異なるプロファイルを使い分けることができます。

NemoClawが提供する推論プロファイルは現在3種類です。

プロファイルモデル実行場所主な特徴
クラウドホスト型Nemotron 3 Super 120Bbuild.nvidia.com高精度・低セットアップ
ローカルNIM任意のNIMモデル自社サーバーデータ主権・低レイテンシ
vLLMNemotron 3 Nano 30B自社GPU軽量・コスト効率

クラウドホスト型プロファイル(Nemotron 3 Super 120B)

クラウドホスト型プロファイルは、NVIDIA公式APIプラットフォームbuild.nvidia.com経由でNemotron 3 Super 120Bを呼び出す方式です。

Nemotron 3 Super 120BはハイブリッドなMamba-Transformer MoE(Mixture of Experts)アーキテクチャを採用したモデルで、ベンチマーク「PinchBench」において85.6%のスコアを記録しており、これはオープンモデルの中で最高水準です。

項目内容
モデル名Nemotron 3 Super 120B
アーキテクチャハイブリッドMamba-Transformer MoE
PinchBenchスコア85.6%(オープンモデル最高)
APIエンドポイントbuild.nvidia.com
ローカルGPU要件不要(クラウド処理)
データの流れリクエスト内容がNVIDIAクラウドに送信される

クラウドホスト型は最も高い推論精度を実現しますが、入力データがNVIDIAのインフラに送信されます。機密情報を扱う業務には後述のローカルNIMプロファイルを検討してください。

クラウドホスト型が適しているシナリオ

次のような状況ではクラウドホスト型プロファイルが最適な選択です。

  • 最高精度のモデルを低セットアップコストで利用したい
  • 処理するデータに個人情報・機密情報が含まれない
  • 試験導入・PoC(概念実証)段階でローカル環境を整備する前
  • ローカルGPUの調達コストを抑えたい

ローカルNIMプロファイル

ローカルNIMプロファイルは、自社のGPUサーバー上でNVIDIA NIM(NVIDIA Inference Microservices)コンテナを稼働させ、推論を完全にオンプレミスで行う方式です。

NIMはNVIDIAが提供するコンテナ形式の推論マイクロサービスで、DockerまたはKubernetes上で動作します。Nemotronをはじめとする各種LLMがNIMとして提供されています。

ローカルNIMプロファイルの主な特徴

  • データ完全ローカル化: リクエスト・レスポンスが外部に出ないため、個人情報保護法・社内データガバナンスポリシーに対応しやすい
  • 低レイテンシ: ネットワーク往復が発生しないため、応答速度がクラウド型より速い場合がある
  • モデル選択の自由: NIMとして提供されているモデルなら任意に選択可能
  • インフラ管理コスト: サーバー・GPU・OS・コンテナ基盤の維持管理が必要
項目内容
実行基盤Docker / Kubernetes on 自社GPU
データの流れ完全ローカル(外部送信なし)
推奨GPUDGX Station / DGX Spark / RTX PRO 6000
セットアップ難度中〜高(コンテナ運用知識が必要)
モデル更新NIMコンテナを手動で更新

vLLMプロファイル(Nemotron 3 Nano 30B)

vLLMプロファイルは、オープンソースの高速推論エンジンvLLMを使用してNemotron 3 Nano 30Bを実行する方式です。

Nemotron 3 Nano 30BはSuper 120Bと比べてパラメータ数が少ない軽量モデルですが、一般的な業務タスクには十分な能力を持ちます。GeForce RTX 4090(24GB VRAM)でも量子化を適用することで動作させることができます。

vLLMプロファイルの主な特徴

  • コスト効率: コンシューマーGPU(GeForce RTX)でも動作可能なため、ハードウェアコストを抑えられる
  • オープンソース: vLLM自体はApache 2.0ライセンスで、追加ライセンス費用が不要
  • 高スループット: vLLMはPagedAttentionによる効率的なメモリ管理で高いトークン生成速度を実現
  • コミュニティサポート: vLLMは活発なOSSコミュニティがあり、問題解決のリソースが豊富
項目内容
推論エンジンvLLM(OSS)
使用モデルNemotron 3 Nano 30B
最低VRAM24GB(INT4量子化時は12GB程度)
データの流れ完全ローカル
セットアップ難度低〜中(pip install vllmで導入可能)

プロファイル選択の判断基準

3つのプロファイルをどの基準で選ぶか、主要な軸で整理します。

判断軸クラウドホスト型ローカルNIMvLLM
推論精度最高(120Bモデル)高(任意モデル)中(30Bモデル)
データ主権低(外部送信あり)高(ローカル完結)高(ローカル完結)
初期コスト低(GPUなし可)高(DGX等が必要)中(RTX4090程度)
レイテンシネットワーク依存低(ローカル処理)低(ローカル処理)
運用コストAPIトークン課金電気代+保守電気代+保守
セットアップ容易さ容易やや複雑比較的容易

blueprint.yamlでの設定方法

NemoClawの推論プロファイルはblueprint.yamlファイルで設定します。以下に各プロファイルの基本的な設定例を示します。

クラウドホスト型プロファイルの設定例:

inference:
  profile: cloud
  model: nemotron-3-super-120b
  api_base: https://integrate.api.nvidia.com/v1
  api_key: ${NVIDIA_API_KEY}

ローカルNIMプロファイルの設定例:

inference:
  profile: local-nim
  endpoint: http://localhost:8000/v1
  model: nemotron-3-super-120b
  timeout: 120

vLLMプロファイルの設定例:

inference:
  profile: vllm
  endpoint: http://localhost:8080/v1
  model: nemotron-3-nano-30b
  max_tokens: 4096

OpenShellは設定ファイルのプロファイル指定を読み込み、エージェントからの推論リクエストを自動的に該当エンドポイントへルーティングします。エージェント側のコード変更は不要です。