NemoClawのインフラ選定で考えるべき3つの問い

NemoClawを動かすインフラを選定する前に、以下の3つの問いに答えることで選択肢が大幅に絞り込まれます。

  • データをクラウドに出してもよいか?:機密データ・個人情報を含む推論はオンプレミスまたはプライベートクラウドが必須。業務データをクラウドAPIに送信できる場合は選択肢が広がる
  • 月間の推論ボリュームはどの程度か?:月100万トークン未満ならクラウドAPIの方が安い。それ以上ならローカルGPU推論(NIM)の投資対効果が出てくる
  • NVIDIA GPUを既に保有しているか?:DGX Station・RTX Pro等の既存資産があればNemoClawの費用対効果が最大化される

以下の構成例はNemoClaw早期アルファ版(2026年3月時点)をベースにしています。正式リリース後に推奨構成が変わる可能性があります。

用途1:開発・デバッグ環境

開発環境ではコストと速度の両立が最優先です。本番相当の構成ではなく、NemoClawの動作確認・blueprint設定・カスタムツール開発が行えれば十分です。

ローカル開発マシン構成

最もシンプルな開発環境はローカルマシンにOpenClaw + NemoClawをインストールし、クラウドAPIを推論バックエンドとして使う構成です。

コンポーネント推奨最低要件
CPUApple M3 Pro / Intel Core i98コア以上
RAM32GB16GB
GPU(ローカルNIMを使わない場合)不要不要
GPU(Nano 30Bをローカル推論する場合)NVIDIA RTX 4090(24GB)NVIDIA RTX 4080(16GB・量子化版)
ストレージNVMe SSD 1TB以上SSD 512GB

ローカルNIMを使わず、Nemotron 3 Super 120Bのクラウドエンドポイントをblueprintで指定する場合、GPU不要でNemoClawの全機能を検証できます。

クラウド開発VM構成

チーム全員が共通の開発環境を使いたい場合や、GPUローカル環境がない場合はクラウドの小規模GPU VMが選択肢になります。

クラウド推奨インスタンスGPU時間料金(目安)
AWSg4dn.xlargeNVIDIA T4(16GB)$0.53/時
AzureNV36adms A10 v5RTX A5500(24GB)$1.8/時
GCPn1-standard-8 + T4NVIDIA T4(16GB)$0.60/時
Lambda Labsgpu_1x_a10NVIDIA A10(24GB)$0.60/時

開発環境は業務時間外に停止するスケジュールを設定し、月間稼働時間を160〜200時間程度に抑えることでコストを$100〜300/月以内に管理できます。

用途2:検証・ステージング環境

ステージング環境は本番環境に近い構成を再現することが目的です。ただし常時稼働させる必要はなく、テスト実行時のみ起動するオンデマンド構成が最も費用対効果が高いです。

要素推奨構成
GPU VMAWS p3.2xlarge(V100 16GB)または Azure NC6s v3
推論バックエンドNemotron Nano 30B(NIM)またはクラウドAPI
ネットワーク本番同等のVPC・セキュリティグループ設定
起動方式Infrastructure as Code(Terraform)で定義し必要時のみプロビジョニング
コスト目安$200〜500/月(テスト実行分のみ)

用途3:本番環境(中規模)

本番環境では高可用性・低レイテンシ・スケーラビリティが要求されます。月間推論ボリュームが10〜100万リクエスト程度の中規模な構成を解説します。

推奨アーキテクチャ

  • GPU VMノード:AWS p4d.24xlarge(A100 × 8枚)× 2台(Active-Passive冗長化)
  • 推論バックエンド:Nemotron 3 Super 120B(NIM)を常時起動
  • ロードバランサー:AWS ALBまたはNginxでNIMエンドポイントへのリクエストを分散
  • 監視:DCGM + Prometheus + Grafana + PagerDutyアラート
  • ストレージ:EBS gp3 2TB(モデルウェイト保存)+ S3(ログ・監査証跡長期保存)
# Terraformによる本番NeMoClaw環境の定義例(抜粋)
resource "aws_instance" "nemoclaw_prod" {
  count         = 2
  ami           = "ami-xxxxxxxx"  # Deep Learning AMI (GPU)
  instance_type = "p4d.24xlarge"
  subnet_id     = aws_subnet.private.id

  root_block_device {
    volume_size = 200
    volume_type = "gp3"
  }

  ebs_block_device {
    device_name = "/dev/sdb"
    volume_size = 2000
    volume_type = "gp3"
  }

  tags = { Name = "nemoclaw-prod-${count.index + 1}" }
}

中規模本番環境のコスト試算

コンポーネント月額概算(AWS)
p4d.24xlarge × 2台(Reserved 1年)$12,000〜18,000
EBS gp3 2TB × 2$180
ALB$30〜50
CloudWatch / S3ログ$50〜100
合計約$12,000〜18,000/月

比較として、同等の推論ボリューム(100万リクエスト/月)をNemotron Super 120Bのクラウドエンドポイントで処理した場合のAPI費用は約$15,000〜25,000/月になります。本番ローカル推論への移行で月額5,000〜10,000ドルのコスト削減が見込めます。

用途4:大規模・エンタープライズ環境

月間推論リクエストが100万件を超える、または複数の業務部門が同一のNemoClaw基盤を共有するエンタープライズ環境では、マルチノード・マルチテナント設計が必要です。

  • Kubernetesクラスター:NVIDIA GPU OperatorとNIM Operatorを使ってGPU VMの動的スケーリングを実現
  • マルチテナント分離:Kubernetesのネームスペースとblueprintのテナントポリシーを組み合わせて部門別のリソース隔離を実現
  • NIM Auto-Scaling:推論負荷に応じてNIMインスタンスを自動増減するHPA(Horizontal Pod Autoscaler)設定
  • ハイブリッドクラウド:機密データはオンプレのNIM、一般データはクラウドNIMにルーティングする設計

オンプレ vs クラウドの判断基準

オンプレミスとクラウドの選択は、推論ボリュームとデータ機密性の2軸で判断します。

判断軸オンプレミス推奨クラウド推奨
推論ボリューム 月100万リクエスト以上(ROI確保) 月100万リクエスト未満
データ機密性 機密データ・個人情報を処理 公開データ・社内一般データ
GPU保有状況 DGX / RTX Proを既に保有 GPU資産なし
スケーラビリティ要件 安定した予測可能なワークロード 急激な負荷変動がある
IT運用体制 GPU運用経験のある社内チームあり インフラ担当が少ない
初期投資 5,000万円以上の予算確保可能 初期投資を最小化したい

ハイブリッド構成の設計パターン

多くの大企業では「完全オンプレ」でも「完全クラウド」でもなく、データ分類に応じてルーティングするハイブリッド構成が最適解です。NemoClawのblueprintはこのハイブリッドルーティングをネイティブにサポートしています。

ハイブリッドblueprintの設定例

# blueprint.yaml - ハイブリッド推論ルーティング
version: "1.0"
inference_profiles:
  # 機密データ用:オンプレNIM
  onprem_confidential:
    type: nim
    endpoint: https://nim.internal.company.com/v1
    model: nemotron-nano-30b-instruct
    auth:
      type: bearer
      secret_env: NIM_INTERNAL_TOKEN

  # 一般データ用:クラウドNIM
  cloud_general:
    type: cloud
    endpoint: https://integrate.api.nvidia.com/v1
    model: nvidia/nemotron-4-340b-instruct
    auth:
      type: bearer
      secret_env: NVIDIA_API_KEY

routing_rules:
  - condition:
      data_classification: ["confidential", "restricted", "pii"]
    profile: onprem_confidential
  - condition:
      default: true
    profile: cloud_general

guardrails:
  pii_detection:
    enabled: true
    action: route_to_local  # PIIを検知したらローカル推論に自動切替

コスト最適ハイブリッドパターン

コスト最適化を重視する場合は、ベースラインの推論はオンプレNIMで処理し、ピーク時のオーバーフローのみクラウドにバーストするパターンが効果的です。

  • ベースライン(オンプレ):平常時の推論負荷をDGX Station(A100 × 4枚)で処理。GPU使用率の目標は70〜80%
  • バースト(クラウド):GPU使用率が90%を超えた場合、自動的にクラウドNIMエンドポイントへオーバーフロー
  • コスト効果:ベースラインはほぼゼロ変動費、ピーク超過分のみクラウド課金。クラウドオンリーと比べて推論コストを60〜80%削減できるケースが多い