GPUサーバーレンタルの2つの課金モデル

NemoClawをオンプレミスGPUで運用する際、最初の判断ポイントは「時間課金」と「月額固定」のどちらを選ぶかです。この選択は運用コストに直接影響し、ユースケースによって最適解が変わります。

課金モデル特徴向いているケースリスク
時間課金(オンデマンド)使った時間だけ課金。即時利用開始・終了が可能開発・検証、ピーク時のみ稼働、不定期なバッチ処理長期稼働で月額固定より割高になる
月額固定(専有型)月単位で契約。価格が安定している24時間365日稼働の本番環境、コスト予測が必要な場合稼働率が低いと割高になる
スポット/プリエンプティブル余剰リソースを低価格で提供。突然終了する可能性あり中断耐性のあるバッチ推論、モデルファインチューニング突然終了→推論中断のリスク
予約インスタンス(1〜3年)長期契約で大幅割引。キャンセル不可長期的に安定稼働する本番環境需要変化に対応しにくい

NemoClawのエージェント推論はリアルタイム応答が求められるケースが多いため、スポットインスタンスは補助的な用途(バッチ処理・検証)に限定し、本番はオンデマンドまたは予約インスタンスで安定稼働させることをおすすめします。

NemoClawの推論プロファイル別・必要なGPU構成

課金モデルを選ぶ前に、自社がどの推論プロファイルを使うかを明確にする必要があります。プロファイルによって必要なGPU構成が大きく変わります。

ローカル軽量プロファイル(Nano 30B)

Nemotron 3 Nano 30Bをローカルで動かすプロファイルです。量子化(4bit)であればVRAM 20〜24GB、fp16(フル精度)では60〜80GB程度が必要です。

開発・検証フェーズでは量子化版から始め、品質要件が明確になったらfp16への移行を検討するのが経済的です。

精度必要VRAMおすすめGPU月額目安(参考)
4bit量子化20〜24GBRTX 4090(24GB)・L4(24GB)3〜8万円程度
8bit量子化35〜40GBA100 40GB・L40S 48GB8〜20万円程度
fp16フル精度60〜80GBA100 80GB・H100 80GB(シングル)15〜40万円程度

ローカルNIMプロファイル

NVIDIA NIMを使って任意のモデルをデプロイするプロファイルです。モデルサイズによってVRAM要件が大幅に変わります。

モデル規模代表例必要VRAMおすすめ構成
〜30BクラスLlama-3.1-8B / Phi-416〜20GBL4 24GB シングル
〜70BクラスLlama-3.1-70B80GBA100 80GB シングル / H100 シングル
〜120BクラスNemotron 3 Super 120B160GB〜A100 80GB×2〜4(マルチGPU)
〜400B以上Llama-3.1-405B等320GB〜H100 80GB×4〜8(マルチGPU)

GPUレンタルサービス別料金比較(2026年3月時点)

以下は主要なGPUレンタル・クラウドサービスのA100/H100を中心とした料金の目安です。為替や各社のキャンペーンによって変動するため、最新情報は各社公式サイトでご確認ください。

時間課金の比較(A100 80GB・1GPU)

A100 80GB(シングルGPU)の時間課金の参考相場です。

サービスオンデマンド目安スポット/割引目安最低利用単位
AWS EC2(p4d系 A100)$3〜4/時間(1GPU換算)$1〜1.5/時間1時間
GCP(a2系 A100)$3〜4/時間(1GPU換算)$1〜1.5/時間(プリエンプティブル)1分
Azure(NDv4 A100)$3〜4/時間(1GPU換算)$1〜1.5/時間(スポット)1分
Xserver VPS GPU公開料金表参照(円建て)プランによる1時間

月額固定の比較(A100 80GB・1GPU相当)

月額固定または予約インスタンス(1年契約)に換算した場合の参考相場です。

サービス月額目安(1GPU)削減率(vs オンデマンド)備考
AWS 予約(1年・全額前払い)約15〜20万円約35〜40%off1年コミット、キャンセル不可
GCP CUD(1年)約15〜20万円約37%off1年コミット
Azure 予約(1年)約16〜22万円約35〜40%off1年コミット
さくらの高火力(専有)要見積もり(A100×8構成)専有型、長期契約

月700時間以上(稼働率約95%)使う場合は予約インスタンスの1年契約が経済的に有利になることが多いです。逆に稼働率が50%以下の場合はオンデマンドの時間課金の方が総コストを下げられます。

NemoClawの推論コスト最適化テクニック

GPU費用はNemoClaw運用の最大コスト要因です。以下のテクニックを組み合わせてコストを最小化できます。

量子化でGPU要件を下げる

NIMで動かすモデルをAWQ・GPTQ・FP8量子化することでVRAM消費を半減させられる場合があります。NanoプロファイルのNemotron 3 Nano 30Bを4bit量子化で動かせば、A100 80GBではなくL4 24GBで足りる可能性があり、コストを大幅に削減できます。

ただし量子化による推論精度の低下があるため、評価セットでの品質チェックを必ず行ってください。

リクエスト量に応じてオートスケール

業務時間(9〜18時)のみ高トラフィックが集中するケースでは、夜間にGPUインスタンスを停止するスケジュールを組むことで稼働時間を半減させられます。AWSではEC2 Auto ScalingとCloudWatch Events、GCPではCloud Schedulerを使った自動起動・停止が実装できます。

# GCP Cloud Schedulerの例(平日9時〜18時のみ起動)
# 起動ジョブ(平日9時)
gcloud scheduler jobs create http nemoclaw-start \
  --schedule="0 9 * * 1-5" \
  --uri="https://compute.googleapis.com/..." \
  --http-method=POST

# 停止ジョブ(平日18時)
gcloud scheduler jobs create http nemoclaw-stop \
  --schedule="0 18 * * 1-5" \
  --uri="https://compute.googleapis.com/..." \
  --http-method=POST

ハイブリッド課金で両取り

本番のベースライン負荷は予約インスタンスで安定稼働させ、スパイク対応はオンデマンド(またはスポット)で吸収するハイブリッド構成がコスト最適化の王道です。NemoClawはエージェントごとに推論プロファイルを切り替えられるため、単純なタスクはNanoプロファイルの安いGPU、複雑なタスクはNIMの大規模GPU、という使い分けも有効です。

コスパ最強の組み合わせまとめ

自社の状況に応じたおすすめ構成を以下にまとめます。

状況おすすめ構成月額コスト目安
PoC・検証フェーズ(エンジニア1〜3名)GCP/AWS L4 24GB オンデマンド(1GPU、週10〜30時間利用)数千〜2万円程度
小規模本番(Nano 30B量子化・24時間稼働)Xserver VPS GPU / L4 24GB 月額 × 1台3〜8万円程度
中規模本番(70Bクラス・ビジネス時間稼働)A100 80GB オンデマンド + 夜間停止スクリプト10〜20万円程度
大規模本番(120B NIM・24時間安定稼働)A100 80GB×2〜4 予約インスタンス(1年)30〜80万円程度

上記の金額はあくまで参考です。実際のコストは利用時間・リージョン・為替・各社割引プログラムによって変動します。各クラウドの料金計算ツール(AWS Pricing Calculator / GCP Pricing Calculator / Azure Calculator)で事前に試算することをおすすめします。