発表概要

NVIDIAは2026年4月28日、Nemotron 3 ファミリーのマルチモーダルモデルNemotron 3 Nano Omniを発表しました。テキスト・画像・音声・動画・ドキュメント・チャート・GUIスクリーンショット等を統合入力として処理できるOmni(オムニ)モデルで、出力はテキストです。

「Nano」の名前に反して30Bパラメータ規模(うちアクティブ3B)の hybrid MoE で、競合のオープンOmniモデル比9倍のスループットを維持しつつインタラクティブ性を保つ点が最大の特徴です。

主要スペック

項目Nemotron 3 Nano Omni
パラメータ30B(アクティブ3B・A3B hybrid MoE)
コンテキスト窓256,000 token
入力モダリティテキスト / 画像 / 音声 / 動画 / ドキュメント / チャート / GUIスクリーンショット
出力モダリティテキスト
独自技術Conv3D + EVS(Enhanced Vision System)
スループット競合Omni比 9倍
対応デバイスJetson / DGX Spark / DGX Station / クラウド
リリース日2026年4月28日

ベンチマーク:6つのリーダーボード首位

Nemotron 3 Nano Omni はドキュメントインテリジェンス系・音声映像理解系の合計6つのリーダーボードで首位を獲得。マルチモーダルベンチマーク全般で「leading accuracy and low cost」の評価を受けています。

特に注目すべきは H Company の computer use agent 事例で、OSWorld ベンチマークにおいて1920×1080ピクセルのネイティブ解像度でGUIナビゲーション性能を大幅に向上させました。GUI操作エージェント(コンピュータユース)市場の標準モデルとして注目されています。

エッジ運用:Jetson・DGX Spark対応

30Bという規模ながら hybrid MoEでアクティブ3Bに抑えているため、DGX Spark(NVIDIA初のエッジ向けAIスーパーコンピュータ)や Jetson プラットフォーム上でローカル実行可能。クラウド不要のオンプレ・エッジマルチモーダル推論を実現します。

これは、データ主権・低レイテンシ・ネットワーク制約のある国内エンタープライズ案件(製造現場・医療・公共インフラ等)にとって決定的なメリットです。

想定ユースケース

  • コンピュータユースエージェント(GUIスクショ → 次アクション提案)
  • ドキュメントOCR + 理解(PDF/契約書/カルテ等の構造化)
  • 動画コンテンツ要約・字幕生成(教育・社内研修)
  • 会議録音 + プレゼン資料統合要約(議事録自動生成)
  • 製造現場の異常検知(ライブ映像 + 音響 + センサーログ統合)
  • カスタマーサポートの音声+画面共有解析

NemoClaw 上での実装はチャットボット構築チュートリアルを参考に、入力モダリティをマルチに拡張する形で進められます。

ダウンロード先

  • Hugging Face(open weights)
  • OpenRouter(API)
  • build.nvidia.com(NVIDIA NIM microservice)
  • 25以上のパートナープラットフォーム