Nemotron 3 VoiceChatとは

Nemotron 3 VoiceChatは、NVIDIAが2026年のGTC 2026で発表した音声AIエージェント基盤です。テキストのやり取りだけでなく、マイク入力からリアルタイムでAIと会話できる全二重(Full-Duplex)音声対話システムを提供します。

従来の音声AIは「話す→AIが処理→AIが返答」という半二重(Push-to-Talk)方式が主流でしたが、Nemotron 3 VoiceChatは人間同士の会話のように、AIが話している間でも割り込みができる全二重通信を実現しています。

コンポーネント技術役割
LLMバックボーンNemotron Nano v2(30B MoE)会話の理解・応答生成
音声認識(ASR)NeMo Parakeet v2マイク入力をテキストに変換
音声合成(TTS)MagpieTTS v2602テキストをリアルな音声に変換
割り込み検出Acoustic Activity Detectorユーザーの発話開始を検知
オーケストレーションNeMo Agent Toolkitコンポーネント間の調整

Nemotron 3 VoiceChatはNemoClawのエンタープライズ機能として提供されており、NemoClawインスタンスに音声エージェントを追加する形で統合されます。基本的なNemoClawの設定についてはインストールガイドを先に確認してください。

音声AIエージェントのビジネス活用事例

Nemotron 3 VoiceChatは以下のビジネスユースケースで特に効果的です。

用途導入効果適合度
コールセンター自動化24時間対応・待ち時間ゼロ・対応コスト70%削減最高
社内ヘルプデスクIT問い合わせ・人事FAQの自動回答
音声UIを持つ業務システムハンズフリー操作・生産性向上
多言語カスタマーサポート9言語対応で海外顧客対応を自動化最高
医療・介護施設での問診補助患者の音声問診を自動記録・要約中(プライバシー対応要)

エンタープライズ導入事例で実際の企業活用を、日本企業の導入事情で国内展開の詳細を確認できます。

GTC 2026でのVoiceChat発表内容

Nemotron 3 VoiceChatはGTC 2026においてNVIDIAのジェンスン・フアンCEOによるデモで世界初公開されました。デモでは英語・日本語・中国語での同時対話と、話の途中でのシームレスな割り込み対応が実演されました。

技術的な特徴として強調されたのはエンドツーエンドレイテンシ200ms以下という数値で、これはVoIPの通話遅延と同等のスムーズさを実現しています。

全二重音声対話の技術的仕組み

全二重音声AIの実現は、複数の技術課題を同時に解決する必要があります。AIが話している最中にユーザーが割り込んできた場合の処理、エコーキャンセル、ASRとTTSのレイテンシ最適化などです。

割り込み検出(Acoustic Activity Detector)の仕組み

Nemotron 3 VoiceChatの割り込み検出はAcoustic Activity Detector(AAD)モジュールが担当します。AADはTTS出力中もマイク入力を常に監視しており、ユーザーの発話を検出した瞬間にTTSストリームを停止します。

技術的には以下のプロセスで動作します。

  1. マイク入力をリングバッファに20msの間隔で蓄積
  2. VAD(Voice Activity Detection)で音声/無音を判定
  3. 音声検出時にTTSストリームに「停止シグナル」を送信
  4. 未送信のTTS音声バッファをクリア
  5. ASRを割り込みユーザー入力から開始

この処理はFPGA上で実行されるため、ソフトウェアのみの実装と比べて検出レイテンシが5ms以下に抑えられています。

エコーキャンセルとノイズ抑制

全二重通信で避けられない問題がエコーです。スピーカーから出力されたAIの声がマイクに入り込み、AIが自分の声を認識して誤動作するケースです。

Nemotron 3 VoiceChatは以下の多層エコーキャンセル処理を実装しています。

  • ハードウェアAEC(Acoustic Echo Cancellation): NVIDIAのMaxineTM SDKによる低レイテンシ処理
  • リファレンス信号キャンセル: TTSが出力したオーディオデータをリファレンスとしてAIへのフィードバックを除去
  • 残差エコー抑制(RES): ハードウェアAECで除去しきれなかった残差をソフトウェアで補完

スピーカーフォンやウェブカメラの内蔵マイクを使用する場合、ハードウェアAECの効果が限定的になることがあります。最良の音質のためにはNVIDIA RTX Voice対応の外部マイクまたはヘッドセットの使用を推奨します。

エンドツーエンドレイテンシの内訳

200ms以下のレイテンシ達成には、各コンポーネントの時間分配が重要です。

処理ステップ処理時間目標使用技術
音声入力バッファリング20msリングバッファ(20ms間隔)
VAD(発話検出)5msNeMo VAD(GPU推論)
ASR(音声→テキスト)50〜80msParakeet v2(ストリーミング)
LLM推論(初回トークン)50〜100msNemotron Nano v2(vLLM)
TTS(テキスト→音声)30〜50msMagpieTTS v2602(ストリーミング)
合計(目標)<200msパイプライン並列処理

各ステップはパイプライン並列で処理されるため、「LLMの2トークン目以降の生成」と「TTSの音声合成」は同時に進行します。これにより合計レイテンシを各ステップの単純合計より大幅に短縮できます。

MagpieTTS v2602の日本語対応と音声品質

Nemotron 3 VoiceChatの音声合成エンジンMagpieTTS v2602は、9言語に対応したニューラルTTSです。日本語を含む多言語対応と、自然なイントネーション・感情表現が特徴です。

MagpieTTS v2602の9言語対応

言語対応ボイス数サンプリングレート音質評価(MOS)
英語(米)12ボイス24kHz / 48kHz4.8/5.0
英語(英)6ボイス24kHz / 48kHz4.7/5.0
日本語8ボイス24kHz / 48kHz4.6/5.0
中国語(簡体)8ボイス24kHz4.5/5.0
ドイツ語4ボイス24kHz4.5/5.0
フランス語4ボイス24kHz4.4/5.0
スペイン語6ボイス24kHz4.5/5.0
韓国語4ボイス24kHz4.4/5.0
ポルトガル語(ブラジル)4ボイス24kHz4.3/5.0

日本語はMOSスコア4.6と非常に高い品質を誇ります。特にビジネス敬語・丁寧語の自然なイントネーション再現が改善されており、コールセンター用途でも違和感の少ない音声を生成できます。

日本語音声のカスタマイズ設定

日本語での利用時に調整できる主要パラメータを説明します。

tts:
  engine: magpie-v2602
  language: ja-JP
  voice: "himari"        # 日本語女性ボイス(ビジネス向け)
  speaking_rate: 1.0     # 話速(0.5〜2.0、標準=1.0)
  pitch: 0.0             # ピッチ調整(-12〜12半音)
  energy: 1.0            # 音量エネルギー
  pause:
    sentence: 300        # 文末ポーズ(ミリ秒)
    comma: 150           # 読点ポーズ
    question: 400        # 疑問文末ポーズ

利用可能な日本語ボイスとその特徴は次の通りです。

ボイスID性別特徴推奨用途
himari女性明るく丁寧なビジネス調コールセンター・受付
akira男性落ち着いた誠実な印象企業案内・ヘルプデスク
yuki中性的フレンドリーで親しみやすいカジュアルサポート・教育
mei女性高齢者に聞きやすいゆっくり目医療・介護

NemoClawで音声エージェントを構築する手順

NemoClawに音声エージェント(VoiceChat)を追加する実際の手順を説明します。

前提条件とハードウェア要件

音声エージェントの構築には以下の環境が必要です。

項目最小要件推奨要件
GPURTX 4080(16GB VRAM)RTX 4090(24GB)またはA10G
CPU8コア(3.0GHz以上)16コア以上
RAM32GB64GB
OSUbuntu 22.04 LTSUbuntu 22.04 LTS
CUDA12.1以降12.3以降
マイクUSBマイク(16bit/16kHz)外部コンデンサマイク(48kHz)

詳細なハードウェア選定はハードウェア要件の記事を参照してください。

blueprint.yamlでの音声エージェント設定

NemoClawのblueprint.yamlに音声エージェント設定を追加します。

# blueprint.yaml(音声エージェント設定)
agent:
  name: voice-assistant
  type: voice

inference:
  profile: vllm
  model: nvidia/Nemotron-Nano-v2-30B
  endpoint: http://localhost:8080/v1
  max_tokens: 512           # 音声向けに短く設定

voice:
  enabled: true
  asr:
    engine: parakeet-v2
    language: ja-JP
    streaming: true
    vad_threshold: 0.5
  tts:
    engine: magpie-v2602
    language: ja-JP
    voice: himari
    speaking_rate: 1.0
  duplex:
    mode: full              # full(全二重)または half(半二重)
    interrupt_sensitivity: 0.7
    echo_cancellation: true
  audio:
    input_device: default
    output_device: default
    sample_rate: 16000

音声エージェントの起動と動作確認

# 音声エージェントを起動
nemoclaw voice --config blueprint.yaml

# または Web UI付きで起動(ブラウザからアクセス可能)
nemoclaw voice --config blueprint.yaml --ui --port 7860

起動後はブラウザで http://localhost:7860 にアクセスするとマイクアイコンが表示され、クリックして話しかけることでエージェントと会話できます。

初回起動時にASRモデル(Parakeet v2)とTTSモデル(MagpieTTS v2602)がHugging Faceからダウンロードされます。合計で約15GBのダウンロードが発生するため、十分な空きディスク容量(50GB以上)を確保してください。

テキストチャットボットの構築チュートリアルも参考に、エージェントの応答ロジックをカスタマイズしてください。

レイテンシ最適化の実践テクニック

200ms以下のレイテンシを安定して達成するための具体的なチューニング方法を説明します。

LLM推論のレイテンシ最適化

音声応答のレイテンシ最大の原因はLLM推論のTTFT(Time to First Token)です。以下の設定でTTFTを削減できます。

# vLLM起動時のオプション
python -m vllm.entrypoints.openai.api_server \
  --model nvidia/Nemotron-Nano-v2-30B \
  --max-model-len 4096 \       # 音声用に短く設定(長文不要)
  --max-num-seqs 8 \            # 同時接続数を制限してレイテンシ優先
  --disable-log-requests \
  --enforce-eager              # CUDAグラフ最適化(初回レイテンシ削減)

音声会話では一般に入力が短く(20〜50トークン)、出力も50〜150トークン程度です。max-model-lenを4096に絞ることでKVキャッシュメモリを削減し、スループットとレイテンシを改善できます。

TTS Early Streamingの活用

MagpieTTS v2602はEarly Streamingモードをサポートしており、LLMがすべてのトークンを生成し終わる前に音声合成を開始できます。

voice:
  tts:
    engine: magpie-v2602
    language: ja-JP
    voice: himari
    streaming:
      enabled: true
      buffer_tokens: 10      # 10トークン貯まったらTTS開始
      chunk_size_ms: 100     # 100msチャンクで音声を送信

この設定により、LLMが最初の10トークンを生成した時点でTTSが起動し、ユーザーには約100ms後に音声が届き始めます。API統合ガイドでストリーミングAPIの詳細設定を確認してください。

GPU割り当て戦略:ASR・LLM・TTSの分離

複数GPUがある場合、各コンポーネントを別GPUに割り当てることで並列処理を最大化できます。

コンポーネントGPU割り当て例VRAM消費目安
ASR(Parakeet v2)GPU:0(RTX 4090)2GB
LLM(Nemotron Nano v2)GPU:0,1(RTX 4090 × 2)18GB
TTS(MagpieTTS v2602)GPU:2(RTX 4080)4GB
AAD(割り込み検出)CPU処理(GPU不要)

単一GPU環境での構築コストについてはトータルコストガイドを、GPU VPSでの構築はGPU VPS比較記事を参照してください。

エンタープライズ音声エージェントのセキュリティと運用

コールセンター・ヘルプデスクなど本番環境で音声エージェントを運用する際のセキュリティと運用考慮点を説明します。

音声データのプライバシー保護

音声通話データは個人情報を含む可能性が高く、適切な保護措置が必要です。

  • 音声データのローカル処理: ローカルNIMプロファイルを使用することで音声データが外部に出ない構成を実現できます
  • 通話録音のポリシー設定: blueprint.yamlのrecording.enabled: falseで録音を無効化
  • 個人情報マスキング: ASR変換後のテキストからクレジットカード番号・マイナンバー等を自動マスキングするフィルターを設定
  • 保存ログの暗号化: 会話ログはAES-256で暗号化してストレージに保存

NemoClawのセキュリティ機能と組み合わせることで、音声エージェントのセキュリティポリシーを一元管理できます。

音声エージェントの品質モニタリング

本番環境では以下のメトリクスを継続的に監視することを推奨します。

メトリクス目標値監視ツール
エンドツーエンドレイテンシ(P95)<300msPrometheus + Grafana
ASR誤認識率(WER)<5%(クリア音声)NeMo評価ツール
割り込み誤検知率<2%カスタムメトリクス
音声合成RTF(Real-Time Factor)<0.3MagpieTTSダッシュボード
同時接続数サーバー容量の80%以下NemoClawステータス