GPUサーバーレンタルの2つの課金モデル
NemoClawをオンプレミスGPUで運用する際、最初の判断ポイントは「時間課金」と「月額固定」のどちらを選ぶかです。この選択は運用コストに直接影響し、ユースケースによって最適解が変わります。
| 課金モデル | 特徴 | 向いているケース | リスク |
|---|---|---|---|
| 時間課金(オンデマンド) | 使った時間だけ課金。即時利用開始・終了が可能 | 開発・検証、ピーク時のみ稼働、不定期なバッチ処理 | 長期稼働で月額固定より割高になる |
| 月額固定(専有型) | 月単位で契約。価格が安定している | 24時間365日稼働の本番環境、コスト予測が必要な場合 | 稼働率が低いと割高になる |
| スポット/プリエンプティブル | 余剰リソースを低価格で提供。突然終了する可能性あり | 中断耐性のあるバッチ推論、モデルファインチューニング | 突然終了→推論中断のリスク |
| 予約インスタンス(1〜3年) | 長期契約で大幅割引。キャンセル不可 | 長期的に安定稼働する本番環境 | 需要変化に対応しにくい |
NemoClawのエージェント推論はリアルタイム応答が求められるケースが多いため、スポットインスタンスは補助的な用途(バッチ処理・検証)に限定し、本番はオンデマンドまたは予約インスタンスで安定稼働させることをおすすめします。
NemoClawの推論プロファイル別・必要なGPU構成
課金モデルを選ぶ前に、自社がどの推論プロファイルを使うかを明確にする必要があります。プロファイルによって必要なGPU構成が大きく変わります。
ローカル軽量プロファイル(Nano 30B)
Nemotron 3 Nano 30Bをローカルで動かすプロファイルです。量子化(4bit)であればVRAM 20〜24GB、fp16(フル精度)では60〜80GB程度が必要です。
開発・検証フェーズでは量子化版から始め、品質要件が明確になったらfp16への移行を検討するのが経済的です。
| 精度 | 必要VRAM | おすすめGPU | 月額目安(参考) |
|---|---|---|---|
| 4bit量子化 | 20〜24GB | RTX 4090(24GB)・L4(24GB) | 3〜8万円程度 |
| 8bit量子化 | 35〜40GB | A100 40GB・L40S 48GB | 8〜20万円程度 |
| fp16フル精度 | 60〜80GB | A100 80GB・H100 80GB(シングル) | 15〜40万円程度 |
ローカルNIMプロファイル
NVIDIA NIMを使って任意のモデルをデプロイするプロファイルです。モデルサイズによってVRAM要件が大幅に変わります。
| モデル規模 | 代表例 | 必要VRAM | おすすめ構成 |
|---|---|---|---|
| 〜30Bクラス | Llama-3.1-8B / Phi-4 | 16〜20GB | L4 24GB シングル |
| 〜70Bクラス | Llama-3.1-70B | 80GB | A100 80GB シングル / H100 シングル |
| 〜120Bクラス | Nemotron 3 Super 120B | 160GB〜 | A100 80GB×2〜4(マルチGPU) |
| 〜400B以上 | Llama-3.1-405B等 | 320GB〜 | H100 80GB×4〜8(マルチGPU) |
GPUレンタルサービス別料金比較(2026年3月時点)
以下は主要なGPUレンタル・クラウドサービスのA100/H100を中心とした料金の目安です。為替や各社のキャンペーンによって変動するため、最新情報は各社公式サイトでご確認ください。
時間課金の比較(A100 80GB・1GPU)
A100 80GB(シングルGPU)の時間課金の参考相場です。
| サービス | オンデマンド目安 | スポット/割引目安 | 最低利用単位 |
|---|---|---|---|
| AWS EC2(p4d系 A100) | $3〜4/時間(1GPU換算) | $1〜1.5/時間 | 1時間 |
| GCP(a2系 A100) | $3〜4/時間(1GPU換算) | $1〜1.5/時間(プリエンプティブル) | 1分 |
| Azure(NDv4 A100) | $3〜4/時間(1GPU換算) | $1〜1.5/時間(スポット) | 1分 |
| Xserver VPS GPU | 公開料金表参照(円建て) | プランによる | 1時間 |
月額固定の比較(A100 80GB・1GPU相当)
月額固定または予約インスタンス(1年契約)に換算した場合の参考相場です。
| サービス | 月額目安(1GPU) | 削減率(vs オンデマンド) | 備考 |
|---|---|---|---|
| AWS 予約(1年・全額前払い) | 約15〜20万円 | 約35〜40%off | 1年コミット、キャンセル不可 |
| GCP CUD(1年) | 約15〜20万円 | 約37%off | 1年コミット |
| Azure 予約(1年) | 約16〜22万円 | 約35〜40%off | 1年コミット |
| さくらの高火力(専有) | 要見積もり(A100×8構成) | — | 専有型、長期契約 |
月700時間以上(稼働率約95%)使う場合は予約インスタンスの1年契約が経済的に有利になることが多いです。逆に稼働率が50%以下の場合はオンデマンドの時間課金の方が総コストを下げられます。
NemoClawの推論コスト最適化テクニック
GPU費用はNemoClaw運用の最大コスト要因です。以下のテクニックを組み合わせてコストを最小化できます。
量子化でGPU要件を下げる
NIMで動かすモデルをAWQ・GPTQ・FP8量子化することでVRAM消費を半減させられる場合があります。NanoプロファイルのNemotron 3 Nano 30Bを4bit量子化で動かせば、A100 80GBではなくL4 24GBで足りる可能性があり、コストを大幅に削減できます。
ただし量子化による推論精度の低下があるため、評価セットでの品質チェックを必ず行ってください。
リクエスト量に応じてオートスケール
業務時間(9〜18時)のみ高トラフィックが集中するケースでは、夜間にGPUインスタンスを停止するスケジュールを組むことで稼働時間を半減させられます。AWSではEC2 Auto ScalingとCloudWatch Events、GCPではCloud Schedulerを使った自動起動・停止が実装できます。
# GCP Cloud Schedulerの例(平日9時〜18時のみ起動)
# 起動ジョブ(平日9時)
gcloud scheduler jobs create http nemoclaw-start \
--schedule="0 9 * * 1-5" \
--uri="https://compute.googleapis.com/..." \
--http-method=POST
# 停止ジョブ(平日18時)
gcloud scheduler jobs create http nemoclaw-stop \
--schedule="0 18 * * 1-5" \
--uri="https://compute.googleapis.com/..." \
--http-method=POST ハイブリッド課金で両取り
本番のベースライン負荷は予約インスタンスで安定稼働させ、スパイク対応はオンデマンド(またはスポット)で吸収するハイブリッド構成がコスト最適化の王道です。NemoClawはエージェントごとに推論プロファイルを切り替えられるため、単純なタスクはNanoプロファイルの安いGPU、複雑なタスクはNIMの大規模GPU、という使い分けも有効です。
コスパ最強の組み合わせまとめ
自社の状況に応じたおすすめ構成を以下にまとめます。
| 状況 | おすすめ構成 | 月額コスト目安 |
|---|---|---|
| PoC・検証フェーズ(エンジニア1〜3名) | GCP/AWS L4 24GB オンデマンド(1GPU、週10〜30時間利用) | 数千〜2万円程度 |
| 小規模本番(Nano 30B量子化・24時間稼働) | Xserver VPS GPU / L4 24GB 月額 × 1台 | 3〜8万円程度 |
| 中規模本番(70Bクラス・ビジネス時間稼働) | A100 80GB オンデマンド + 夜間停止スクリプト | 10〜20万円程度 |
| 大規模本番(120B NIM・24時間安定稼働) | A100 80GB×2〜4 予約インスタンス(1年) | 30〜80万円程度 |
上記の金額はあくまで参考です。実際のコストは利用時間・リージョン・為替・各社割引プログラムによって変動します。各クラウドの料金計算ツール(AWS Pricing Calculator / GCP Pricing Calculator / Azure Calculator)で事前に試算することをおすすめします。