推論プロファイルとは
NemoClawにおける「推論プロファイル」とは、AIエージェントのリクエストをどのモデル・どの実行環境に送るかを定義した設定です。NemoClawのコアコンポーネントであるOpenShellがすべての推論呼び出しをインターセプトし、プロファイルに従って適切なエンドポイントへルーティングします。
この仕組みにより、エージェントのコードを変更することなく、クラウド・ローカル・vLLMを透過的に切り替えることができます。
推論プロファイルはNemoClawの設定ファイル(blueprint.yaml)で指定します。環境変数や実行時オプションでも上書き可能で、開発・ステージング・本番で異なるプロファイルを使い分けることができます。
NemoClawが提供する推論プロファイルは現在3種類です。
| プロファイル | モデル | 実行場所 | 主な特徴 |
|---|---|---|---|
| クラウドホスト型 | Nemotron 3 Super 120B | build.nvidia.com | 高精度・低セットアップ |
| ローカルNIM | 任意のNIMモデル | 自社サーバー | データ主権・低レイテンシ |
| vLLM | Nemotron 3 Nano 30B | 自社GPU | 軽量・コスト効率 |
クラウドホスト型プロファイル(Nemotron 3 Super 120B)
クラウドホスト型プロファイルは、NVIDIA公式APIプラットフォームbuild.nvidia.com経由でNemotron 3 Super 120Bを呼び出す方式です。
Nemotron 3 Super 120BはハイブリッドなMamba-Transformer MoE(Mixture of Experts)アーキテクチャを採用したモデルで、ベンチマーク「PinchBench」において85.6%のスコアを記録しており、これはオープンモデルの中で最高水準です。
| 項目 | 内容 |
|---|---|
| モデル名 | Nemotron 3 Super 120B |
| アーキテクチャ | ハイブリッドMamba-Transformer MoE |
| PinchBenchスコア | 85.6%(オープンモデル最高) |
| APIエンドポイント | build.nvidia.com |
| ローカルGPU要件 | 不要(クラウド処理) |
| データの流れ | リクエスト内容がNVIDIAクラウドに送信される |
クラウドホスト型は最も高い推論精度を実現しますが、入力データがNVIDIAのインフラに送信されます。機密情報を扱う業務には後述のローカルNIMプロファイルを検討してください。
クラウドホスト型が適しているシナリオ
次のような状況ではクラウドホスト型プロファイルが最適な選択です。
- 最高精度のモデルを低セットアップコストで利用したい
- 処理するデータに個人情報・機密情報が含まれない
- 試験導入・PoC(概念実証)段階でローカル環境を整備する前
- ローカルGPUの調達コストを抑えたい
ローカルNIMプロファイル
ローカルNIMプロファイルは、自社のGPUサーバー上でNVIDIA NIM(NVIDIA Inference Microservices)コンテナを稼働させ、推論を完全にオンプレミスで行う方式です。
NIMはNVIDIAが提供するコンテナ形式の推論マイクロサービスで、DockerまたはKubernetes上で動作します。Nemotronをはじめとする各種LLMがNIMとして提供されています。
ローカルNIMプロファイルの主な特徴
- データ完全ローカル化: リクエスト・レスポンスが外部に出ないため、個人情報保護法・社内データガバナンスポリシーに対応しやすい
- 低レイテンシ: ネットワーク往復が発生しないため、応答速度がクラウド型より速い場合がある
- モデル選択の自由: NIMとして提供されているモデルなら任意に選択可能
- インフラ管理コスト: サーバー・GPU・OS・コンテナ基盤の維持管理が必要
| 項目 | 内容 |
|---|---|
| 実行基盤 | Docker / Kubernetes on 自社GPU |
| データの流れ | 完全ローカル(外部送信なし) |
| 推奨GPU | DGX Station / DGX Spark / RTX PRO 6000 |
| セットアップ難度 | 中〜高(コンテナ運用知識が必要) |
| モデル更新 | NIMコンテナを手動で更新 |
vLLMプロファイル(Nemotron 3 Nano 30B)
vLLMプロファイルは、オープンソースの高速推論エンジンvLLMを使用してNemotron 3 Nano 30Bを実行する方式です。
Nemotron 3 Nano 30BはSuper 120Bと比べてパラメータ数が少ない軽量モデルですが、一般的な業務タスクには十分な能力を持ちます。GeForce RTX 4090(24GB VRAM)でも量子化を適用することで動作させることができます。
vLLMプロファイルの主な特徴
- コスト効率: コンシューマーGPU(GeForce RTX)でも動作可能なため、ハードウェアコストを抑えられる
- オープンソース: vLLM自体はApache 2.0ライセンスで、追加ライセンス費用が不要
- 高スループット: vLLMはPagedAttentionによる効率的なメモリ管理で高いトークン生成速度を実現
- コミュニティサポート: vLLMは活発なOSSコミュニティがあり、問題解決のリソースが豊富
| 項目 | 内容 |
|---|---|
| 推論エンジン | vLLM(OSS) |
| 使用モデル | Nemotron 3 Nano 30B |
| 最低VRAM | 24GB(INT4量子化時は12GB程度) |
| データの流れ | 完全ローカル |
| セットアップ難度 | 低〜中(pip install vllmで導入可能) |
プロファイル選択の判断基準
3つのプロファイルをどの基準で選ぶか、主要な軸で整理します。
| 判断軸 | クラウドホスト型 | ローカルNIM | vLLM |
|---|---|---|---|
| 推論精度 | 最高(120Bモデル) | 高(任意モデル) | 中(30Bモデル) |
| データ主権 | 低(外部送信あり) | 高(ローカル完結) | 高(ローカル完結) |
| 初期コスト | 低(GPUなし可) | 高(DGX等が必要) | 中(RTX4090程度) |
| レイテンシ | ネットワーク依存 | 低(ローカル処理) | 低(ローカル処理) |
| 運用コスト | APIトークン課金 | 電気代+保守 | 電気代+保守 |
| セットアップ容易さ | 容易 | やや複雑 | 比較的容易 |
blueprint.yamlでの設定方法
NemoClawの推論プロファイルはblueprint.yamlファイルで設定します。以下に各プロファイルの基本的な設定例を示します。
クラウドホスト型プロファイルの設定例:
inference:
profile: cloud
model: nemotron-3-super-120b
api_base: https://integrate.api.nvidia.com/v1
api_key: ${NVIDIA_API_KEY}
ローカルNIMプロファイルの設定例:
inference:
profile: local-nim
endpoint: http://localhost:8000/v1
model: nemotron-3-super-120b
timeout: 120
vLLMプロファイルの設定例:
inference:
profile: vllm
endpoint: http://localhost:8080/v1
model: nemotron-3-nano-30b
max_tokens: 4096
OpenShellは設定ファイルのプロファイル指定を読み込み、エージェントからの推論リクエストを自動的に該当エンドポイントへルーティングします。エージェント側のコード変更は不要です。