NemoClawのインフラ選定で考えるべき3つの問い
NemoClawを動かすインフラを選定する前に、以下の3つの問いに答えることで選択肢が大幅に絞り込まれます。
- データをクラウドに出してもよいか?:機密データ・個人情報を含む推論はオンプレミスまたはプライベートクラウドが必須。業務データをクラウドAPIに送信できる場合は選択肢が広がる
- 月間の推論ボリュームはどの程度か?:月100万トークン未満ならクラウドAPIの方が安い。それ以上ならローカルGPU推論(NIM)の投資対効果が出てくる
- NVIDIA GPUを既に保有しているか?:DGX Station・RTX Pro等の既存資産があればNemoClawの費用対効果が最大化される
以下の構成例はNemoClaw早期アルファ版(2026年3月時点)をベースにしています。正式リリース後に推奨構成が変わる可能性があります。
用途1:開発・デバッグ環境
開発環境ではコストと速度の両立が最優先です。本番相当の構成ではなく、NemoClawの動作確認・blueprint設定・カスタムツール開発が行えれば十分です。
ローカル開発マシン構成
最もシンプルな開発環境はローカルマシンにOpenClaw + NemoClawをインストールし、クラウドAPIを推論バックエンドとして使う構成です。
| コンポーネント | 推奨 | 最低要件 |
|---|---|---|
| CPU | Apple M3 Pro / Intel Core i9 | 8コア以上 |
| RAM | 32GB | 16GB |
| GPU(ローカルNIMを使わない場合) | 不要 | 不要 |
| GPU(Nano 30Bをローカル推論する場合) | NVIDIA RTX 4090(24GB) | NVIDIA RTX 4080(16GB・量子化版) |
| ストレージ | NVMe SSD 1TB以上 | SSD 512GB |
ローカルNIMを使わず、Nemotron 3 Super 120Bのクラウドエンドポイントをblueprintで指定する場合、GPU不要でNemoClawの全機能を検証できます。
クラウド開発VM構成
チーム全員が共通の開発環境を使いたい場合や、GPUローカル環境がない場合はクラウドの小規模GPU VMが選択肢になります。
| クラウド | 推奨インスタンス | GPU | 時間料金(目安) |
|---|---|---|---|
| AWS | g4dn.xlarge | NVIDIA T4(16GB) | $0.53/時 |
| Azure | NV36adms A10 v5 | RTX A5500(24GB) | $1.8/時 |
| GCP | n1-standard-8 + T4 | NVIDIA T4(16GB) | $0.60/時 |
| Lambda Labs | gpu_1x_a10 | NVIDIA A10(24GB) | $0.60/時 |
開発環境は業務時間外に停止するスケジュールを設定し、月間稼働時間を160〜200時間程度に抑えることでコストを$100〜300/月以内に管理できます。
用途2:検証・ステージング環境
ステージング環境は本番環境に近い構成を再現することが目的です。ただし常時稼働させる必要はなく、テスト実行時のみ起動するオンデマンド構成が最も費用対効果が高いです。
| 要素 | 推奨構成 |
|---|---|
| GPU VM | AWS p3.2xlarge(V100 16GB)または Azure NC6s v3 |
| 推論バックエンド | Nemotron Nano 30B(NIM)またはクラウドAPI |
| ネットワーク | 本番同等のVPC・セキュリティグループ設定 |
| 起動方式 | Infrastructure as Code(Terraform)で定義し必要時のみプロビジョニング |
| コスト目安 | $200〜500/月(テスト実行分のみ) |
用途3:本番環境(中規模)
本番環境では高可用性・低レイテンシ・スケーラビリティが要求されます。月間推論ボリュームが10〜100万リクエスト程度の中規模な構成を解説します。
推奨アーキテクチャ
- GPU VMノード:AWS p4d.24xlarge(A100 × 8枚)× 2台(Active-Passive冗長化)
- 推論バックエンド:Nemotron 3 Super 120B(NIM)を常時起動
- ロードバランサー:AWS ALBまたはNginxでNIMエンドポイントへのリクエストを分散
- 監視:DCGM + Prometheus + Grafana + PagerDutyアラート
- ストレージ:EBS gp3 2TB(モデルウェイト保存)+ S3(ログ・監査証跡長期保存)
# Terraformによる本番NeMoClaw環境の定義例(抜粋)
resource "aws_instance" "nemoclaw_prod" {
count = 2
ami = "ami-xxxxxxxx" # Deep Learning AMI (GPU)
instance_type = "p4d.24xlarge"
subnet_id = aws_subnet.private.id
root_block_device {
volume_size = 200
volume_type = "gp3"
}
ebs_block_device {
device_name = "/dev/sdb"
volume_size = 2000
volume_type = "gp3"
}
tags = { Name = "nemoclaw-prod-${count.index + 1}" }
} 中規模本番環境のコスト試算
| コンポーネント | 月額概算(AWS) |
|---|---|
| p4d.24xlarge × 2台(Reserved 1年) | $12,000〜18,000 |
| EBS gp3 2TB × 2 | $180 |
| ALB | $30〜50 |
| CloudWatch / S3ログ | $50〜100 |
| 合計 | 約$12,000〜18,000/月 |
比較として、同等の推論ボリューム(100万リクエスト/月)をNemotron Super 120Bのクラウドエンドポイントで処理した場合のAPI費用は約$15,000〜25,000/月になります。本番ローカル推論への移行で月額5,000〜10,000ドルのコスト削減が見込めます。
用途4:大規模・エンタープライズ環境
月間推論リクエストが100万件を超える、または複数の業務部門が同一のNemoClaw基盤を共有するエンタープライズ環境では、マルチノード・マルチテナント設計が必要です。
- Kubernetesクラスター:NVIDIA GPU OperatorとNIM Operatorを使ってGPU VMの動的スケーリングを実現
- マルチテナント分離:Kubernetesのネームスペースとblueprintのテナントポリシーを組み合わせて部門別のリソース隔離を実現
- NIM Auto-Scaling:推論負荷に応じてNIMインスタンスを自動増減するHPA(Horizontal Pod Autoscaler)設定
- ハイブリッドクラウド:機密データはオンプレのNIM、一般データはクラウドNIMにルーティングする設計
オンプレ vs クラウドの判断基準
オンプレミスとクラウドの選択は、推論ボリュームとデータ機密性の2軸で判断します。
| 判断軸 | オンプレミス推奨 | クラウド推奨 |
|---|---|---|
| 推論ボリューム | 月100万リクエスト以上(ROI確保) | 月100万リクエスト未満 |
| データ機密性 | 機密データ・個人情報を処理 | 公開データ・社内一般データ |
| GPU保有状況 | DGX / RTX Proを既に保有 | GPU資産なし |
| スケーラビリティ要件 | 安定した予測可能なワークロード | 急激な負荷変動がある |
| IT運用体制 | GPU運用経験のある社内チームあり | インフラ担当が少ない |
| 初期投資 | 5,000万円以上の予算確保可能 | 初期投資を最小化したい |
ハイブリッド構成の設計パターン
多くの大企業では「完全オンプレ」でも「完全クラウド」でもなく、データ分類に応じてルーティングするハイブリッド構成が最適解です。NemoClawのblueprintはこのハイブリッドルーティングをネイティブにサポートしています。
ハイブリッドblueprintの設定例
# blueprint.yaml - ハイブリッド推論ルーティング
version: "1.0"
inference_profiles:
# 機密データ用:オンプレNIM
onprem_confidential:
type: nim
endpoint: https://nim.internal.company.com/v1
model: nemotron-nano-30b-instruct
auth:
type: bearer
secret_env: NIM_INTERNAL_TOKEN
# 一般データ用:クラウドNIM
cloud_general:
type: cloud
endpoint: https://integrate.api.nvidia.com/v1
model: nvidia/nemotron-4-340b-instruct
auth:
type: bearer
secret_env: NVIDIA_API_KEY
routing_rules:
- condition:
data_classification: ["confidential", "restricted", "pii"]
profile: onprem_confidential
- condition:
default: true
profile: cloud_general
guardrails:
pii_detection:
enabled: true
action: route_to_local # PIIを検知したらローカル推論に自動切替 コスト最適ハイブリッドパターン
コスト最適化を重視する場合は、ベースラインの推論はオンプレNIMで処理し、ピーク時のオーバーフローのみクラウドにバーストするパターンが効果的です。
- ベースライン(オンプレ):平常時の推論負荷をDGX Station(A100 × 4枚)で処理。GPU使用率の目標は70〜80%
- バースト(クラウド):GPU使用率が90%を超えた場合、自動的にクラウドNIMエンドポイントへオーバーフロー
- コスト効果:ベースラインはほぼゼロ変動費、ピーク超過分のみクラウド課金。クラウドオンリーと比べて推論コストを60〜80%削減できるケースが多い