【速報】Nemotron 3 Nano Omni 発表｜30B Vision+Audio+Language統合・256Kコンテキスト・9倍効率

Q: 対応入力は？

テキスト・画像・音声・動画・ドキュメント・チャート・GUIスクリーンショット の7種類。出力はテキストのみ。

発表概要

NVIDIAは2026年4月28日、Nemotron 3 ファミリーのマルチモーダルモデルNemotron 3 Nano Omniを発表しました。テキスト・画像・音声・動画・ドキュメント・チャート・GUIスクリーンショット等を統合入力として処理できるOmni（オムニ）モデルで、出力はテキストです。

「Nano」の名前に反して30Bパラメータ規模（うちアクティブ3B）の hybrid MoE で、競合のオープンOmniモデル比9倍のスループットを維持しつつインタラクティブ性を保つ点が最大の特徴です。

主要スペック

項目	Nemotron 3 Nano Omni
パラメータ	30B（アクティブ3B・A3B hybrid MoE）
コンテキスト窓	256,000 token
入力モダリティ	テキスト / 画像 / 音声 / 動画 / ドキュメント / チャート / GUIスクリーンショット
出力モダリティ	テキスト
独自技術	Conv3D + EVS（Enhanced Vision System）
スループット	競合Omni比 9倍
対応デバイス	Jetson / DGX Spark / DGX Station / クラウド
リリース日	2026年4月28日

ベンチマーク：6つのリーダーボード首位

Nemotron 3 Nano Omni はドキュメントインテリジェンス系・音声映像理解系の合計6つのリーダーボードで首位を獲得。マルチモーダルベンチマーク全般で「leading accuracy and low cost」の評価を受けています。

特に注目すべきは H Company の computer use agent 事例で、OSWorld ベンチマークにおいて1920×1080ピクセルのネイティブ解像度でGUIナビゲーション性能を大幅に向上させました。GUI操作エージェント（コンピュータユース）市場の標準モデルとして注目されています。

エッジ運用：Jetson・DGX Spark対応

30Bという規模ながら hybrid MoEでアクティブ3Bに抑えているため、DGX Spark（NVIDIA初のエッジ向けAIスーパーコンピュータ）や Jetson プラットフォーム上でローカル実行可能。クラウド不要のオンプレ・エッジマルチモーダル推論を実現します。

これは、データ主権・低レイテンシ・ネットワーク制約のある国内エンタープライズ案件（製造現場・医療・公共インフラ等）にとって決定的なメリットです。

想定ユースケース

コンピュータユースエージェント（GUIスクショ → 次アクション提案）
ドキュメントOCR + 理解（PDF/契約書/カルテ等の構造化）
動画コンテンツ要約・字幕生成（教育・社内研修）
会議録音 + プレゼン資料統合要約（議事録自動生成）
製造現場の異常検知（ライブ映像 + 音響 + センサーログ統合）
カスタマーサポートの音声+画面共有解析

NemoClaw 上での実装はチャットボット構築チュートリアルを参考に、入力モダリティをマルチに拡張する形で進められます。

ダウンロード先

Hugging Face（open weights）
OpenRouter（API）
build.nvidia.com（NVIDIA NIM microservice）
25以上のパートナープラットフォーム

よくある質問（FAQ）

Q リリース日は？

2026年4月28日に正式リリースされました。

Q なぜ「Nano」なのに30Bあるのですか？

hybrid MoE（mixture of experts）でアクティブパラメータが3Bに抑えられているため、推論時の計算量が「Nano級」になります。30B全体は知識保持のためのパラメータです。

Q 対応入力は？

テキスト・画像・音声・動画・ドキュメント・チャート・GUIスクリーンショットの7種類。出力はテキストのみ。

Q Jetson でも動きますか？

はい、Jetson・DGX Spark・DGX Station・クラウド全てで動作。エッジ環境でのマルチモーダル推論が可能。

Q GPT-4o との比較は？

OpenAI GPT-4o もOmniカテゴリですがクローズドソース。Nemotron 3 Nano Omni はオープンウェイトで商用利用可、6つのベンチマーク首位という独自ポジションを確立。

Q NemoClaw から呼べますか？

はい、NemoClaw のモデル選択UIから利用可能。マルチモーダル入力対応のチャットUIが標準提供されます。

Q コンピュータユースエージェントとは？

GUIスクリーンショット入力 → 「次に押すべきボタン」「入力すべきテキスト」を出力するエージェント。RPA を超える汎用業務自動化として期待されています。H Company の事例が代表例。

NemoClawナビで最新のAIエージェント情報をチェック。