Nemotron 3 VoiceChatとは
Nemotron 3 VoiceChatは、NVIDIAが2026年のGTC 2026で発表した音声AIエージェント基盤です。テキストのやり取りだけでなく、マイク入力からリアルタイムでAIと会話できる全二重(Full-Duplex)音声対話システムを提供します。
従来の音声AIは「話す→AIが処理→AIが返答」という半二重(Push-to-Talk)方式が主流でしたが、Nemotron 3 VoiceChatは人間同士の会話のように、AIが話している間でも割り込みができる全二重通信を実現しています。
| コンポーネント | 技術 | 役割 |
|---|---|---|
| LLMバックボーン | Nemotron Nano v2(30B MoE) | 会話の理解・応答生成 |
| 音声認識(ASR) | NeMo Parakeet v2 | マイク入力をテキストに変換 |
| 音声合成(TTS) | MagpieTTS v2602 | テキストをリアルな音声に変換 |
| 割り込み検出 | Acoustic Activity Detector | ユーザーの発話開始を検知 |
| オーケストレーション | NeMo Agent Toolkit | コンポーネント間の調整 |
Nemotron 3 VoiceChatはNemoClawのエンタープライズ機能として提供されており、NemoClawインスタンスに音声エージェントを追加する形で統合されます。基本的なNemoClawの設定についてはインストールガイドを先に確認してください。
音声AIエージェントのビジネス活用事例
Nemotron 3 VoiceChatは以下のビジネスユースケースで特に効果的です。
| 用途 | 導入効果 | 適合度 |
|---|---|---|
| コールセンター自動化 | 24時間対応・待ち時間ゼロ・対応コスト70%削減 | 最高 |
| 社内ヘルプデスク | IT問い合わせ・人事FAQの自動回答 | 高 |
| 音声UIを持つ業務システム | ハンズフリー操作・生産性向上 | 高 |
| 多言語カスタマーサポート | 9言語対応で海外顧客対応を自動化 | 最高 |
| 医療・介護施設での問診補助 | 患者の音声問診を自動記録・要約 | 中(プライバシー対応要) |
エンタープライズ導入事例で実際の企業活用を、日本企業の導入事情で国内展開の詳細を確認できます。
GTC 2026でのVoiceChat発表内容
Nemotron 3 VoiceChatはGTC 2026においてNVIDIAのジェンスン・フアンCEOによるデモで世界初公開されました。デモでは英語・日本語・中国語での同時対話と、話の途中でのシームレスな割り込み対応が実演されました。
技術的な特徴として強調されたのはエンドツーエンドレイテンシ200ms以下という数値で、これはVoIPの通話遅延と同等のスムーズさを実現しています。
全二重音声対話の技術的仕組み
全二重音声AIの実現は、複数の技術課題を同時に解決する必要があります。AIが話している最中にユーザーが割り込んできた場合の処理、エコーキャンセル、ASRとTTSのレイテンシ最適化などです。
割り込み検出(Acoustic Activity Detector)の仕組み
Nemotron 3 VoiceChatの割り込み検出はAcoustic Activity Detector(AAD)モジュールが担当します。AADはTTS出力中もマイク入力を常に監視しており、ユーザーの発話を検出した瞬間にTTSストリームを停止します。
技術的には以下のプロセスで動作します。
- マイク入力をリングバッファに20msの間隔で蓄積
- VAD(Voice Activity Detection)で音声/無音を判定
- 音声検出時にTTSストリームに「停止シグナル」を送信
- 未送信のTTS音声バッファをクリア
- ASRを割り込みユーザー入力から開始
この処理はFPGA上で実行されるため、ソフトウェアのみの実装と比べて検出レイテンシが5ms以下に抑えられています。
エコーキャンセルとノイズ抑制
全二重通信で避けられない問題がエコーです。スピーカーから出力されたAIの声がマイクに入り込み、AIが自分の声を認識して誤動作するケースです。
Nemotron 3 VoiceChatは以下の多層エコーキャンセル処理を実装しています。
- ハードウェアAEC(Acoustic Echo Cancellation): NVIDIAのMaxineTM SDKによる低レイテンシ処理
- リファレンス信号キャンセル: TTSが出力したオーディオデータをリファレンスとしてAIへのフィードバックを除去
- 残差エコー抑制(RES): ハードウェアAECで除去しきれなかった残差をソフトウェアで補完
スピーカーフォンやウェブカメラの内蔵マイクを使用する場合、ハードウェアAECの効果が限定的になることがあります。最良の音質のためにはNVIDIA RTX Voice対応の外部マイクまたはヘッドセットの使用を推奨します。
エンドツーエンドレイテンシの内訳
200ms以下のレイテンシ達成には、各コンポーネントの時間分配が重要です。
| 処理ステップ | 処理時間目標 | 使用技術 |
|---|---|---|
| 音声入力バッファリング | 20ms | リングバッファ(20ms間隔) |
| VAD(発話検出) | 5ms | NeMo VAD(GPU推論) |
| ASR(音声→テキスト) | 50〜80ms | Parakeet v2(ストリーミング) |
| LLM推論(初回トークン) | 50〜100ms | Nemotron Nano v2(vLLM) |
| TTS(テキスト→音声) | 30〜50ms | MagpieTTS v2602(ストリーミング) |
| 合計(目標) | <200ms | パイプライン並列処理 |
各ステップはパイプライン並列で処理されるため、「LLMの2トークン目以降の生成」と「TTSの音声合成」は同時に進行します。これにより合計レイテンシを各ステップの単純合計より大幅に短縮できます。
MagpieTTS v2602の日本語対応と音声品質
Nemotron 3 VoiceChatの音声合成エンジンMagpieTTS v2602は、9言語に対応したニューラルTTSです。日本語を含む多言語対応と、自然なイントネーション・感情表現が特徴です。
MagpieTTS v2602の9言語対応
| 言語 | 対応ボイス数 | サンプリングレート | 音質評価(MOS) |
|---|---|---|---|
| 英語(米) | 12ボイス | 24kHz / 48kHz | 4.8/5.0 |
| 英語(英) | 6ボイス | 24kHz / 48kHz | 4.7/5.0 |
| 日本語 | 8ボイス | 24kHz / 48kHz | 4.6/5.0 |
| 中国語(簡体) | 8ボイス | 24kHz | 4.5/5.0 |
| ドイツ語 | 4ボイス | 24kHz | 4.5/5.0 |
| フランス語 | 4ボイス | 24kHz | 4.4/5.0 |
| スペイン語 | 6ボイス | 24kHz | 4.5/5.0 |
| 韓国語 | 4ボイス | 24kHz | 4.4/5.0 |
| ポルトガル語(ブラジル) | 4ボイス | 24kHz | 4.3/5.0 |
日本語はMOSスコア4.6と非常に高い品質を誇ります。特にビジネス敬語・丁寧語の自然なイントネーション再現が改善されており、コールセンター用途でも違和感の少ない音声を生成できます。
日本語音声のカスタマイズ設定
日本語での利用時に調整できる主要パラメータを説明します。
tts:
engine: magpie-v2602
language: ja-JP
voice: "himari" # 日本語女性ボイス(ビジネス向け)
speaking_rate: 1.0 # 話速(0.5〜2.0、標準=1.0)
pitch: 0.0 # ピッチ調整(-12〜12半音)
energy: 1.0 # 音量エネルギー
pause:
sentence: 300 # 文末ポーズ(ミリ秒)
comma: 150 # 読点ポーズ
question: 400 # 疑問文末ポーズ
利用可能な日本語ボイスとその特徴は次の通りです。
| ボイスID | 性別 | 特徴 | 推奨用途 |
|---|---|---|---|
| himari | 女性 | 明るく丁寧なビジネス調 | コールセンター・受付 |
| akira | 男性 | 落ち着いた誠実な印象 | 企業案内・ヘルプデスク |
| yuki | 中性的 | フレンドリーで親しみやすい | カジュアルサポート・教育 |
| mei | 女性 | 高齢者に聞きやすいゆっくり目 | 医療・介護 |
NemoClawで音声エージェントを構築する手順
NemoClawに音声エージェント(VoiceChat)を追加する実際の手順を説明します。
前提条件とハードウェア要件
音声エージェントの構築には以下の環境が必要です。
| 項目 | 最小要件 | 推奨要件 |
|---|---|---|
| GPU | RTX 4080(16GB VRAM) | RTX 4090(24GB)またはA10G |
| CPU | 8コア(3.0GHz以上) | 16コア以上 |
| RAM | 32GB | 64GB |
| OS | Ubuntu 22.04 LTS | Ubuntu 22.04 LTS |
| CUDA | 12.1以降 | 12.3以降 |
| マイク | USBマイク(16bit/16kHz) | 外部コンデンサマイク(48kHz) |
詳細なハードウェア選定はハードウェア要件の記事を参照してください。
blueprint.yamlでの音声エージェント設定
NemoClawのblueprint.yamlに音声エージェント設定を追加します。
# blueprint.yaml(音声エージェント設定)
agent:
name: voice-assistant
type: voice
inference:
profile: vllm
model: nvidia/Nemotron-Nano-v2-30B
endpoint: http://localhost:8080/v1
max_tokens: 512 # 音声向けに短く設定
voice:
enabled: true
asr:
engine: parakeet-v2
language: ja-JP
streaming: true
vad_threshold: 0.5
tts:
engine: magpie-v2602
language: ja-JP
voice: himari
speaking_rate: 1.0
duplex:
mode: full # full(全二重)または half(半二重)
interrupt_sensitivity: 0.7
echo_cancellation: true
audio:
input_device: default
output_device: default
sample_rate: 16000
音声エージェントの起動と動作確認
# 音声エージェントを起動
nemoclaw voice --config blueprint.yaml
# または Web UI付きで起動(ブラウザからアクセス可能)
nemoclaw voice --config blueprint.yaml --ui --port 7860
起動後はブラウザで http://localhost:7860 にアクセスするとマイクアイコンが表示され、クリックして話しかけることでエージェントと会話できます。
初回起動時にASRモデル(Parakeet v2)とTTSモデル(MagpieTTS v2602)がHugging Faceからダウンロードされます。合計で約15GBのダウンロードが発生するため、十分な空きディスク容量(50GB以上)を確保してください。
テキストチャットボットの構築チュートリアルも参考に、エージェントの応答ロジックをカスタマイズしてください。
レイテンシ最適化の実践テクニック
200ms以下のレイテンシを安定して達成するための具体的なチューニング方法を説明します。
LLM推論のレイテンシ最適化
音声応答のレイテンシ最大の原因はLLM推論のTTFT(Time to First Token)です。以下の設定でTTFTを削減できます。
# vLLM起動時のオプション
python -m vllm.entrypoints.openai.api_server \
--model nvidia/Nemotron-Nano-v2-30B \
--max-model-len 4096 \ # 音声用に短く設定(長文不要)
--max-num-seqs 8 \ # 同時接続数を制限してレイテンシ優先
--disable-log-requests \
--enforce-eager # CUDAグラフ最適化(初回レイテンシ削減)
音声会話では一般に入力が短く(20〜50トークン)、出力も50〜150トークン程度です。max-model-lenを4096に絞ることでKVキャッシュメモリを削減し、スループットとレイテンシを改善できます。
TTS Early Streamingの活用
MagpieTTS v2602はEarly Streamingモードをサポートしており、LLMがすべてのトークンを生成し終わる前に音声合成を開始できます。
voice:
tts:
engine: magpie-v2602
language: ja-JP
voice: himari
streaming:
enabled: true
buffer_tokens: 10 # 10トークン貯まったらTTS開始
chunk_size_ms: 100 # 100msチャンクで音声を送信
この設定により、LLMが最初の10トークンを生成した時点でTTSが起動し、ユーザーには約100ms後に音声が届き始めます。API統合ガイドでストリーミングAPIの詳細設定を確認してください。
GPU割り当て戦略:ASR・LLM・TTSの分離
複数GPUがある場合、各コンポーネントを別GPUに割り当てることで並列処理を最大化できます。
| コンポーネント | GPU割り当て例 | VRAM消費目安 |
|---|---|---|
| ASR(Parakeet v2) | GPU:0(RTX 4090) | 2GB |
| LLM(Nemotron Nano v2) | GPU:0,1(RTX 4090 × 2) | 18GB |
| TTS(MagpieTTS v2602) | GPU:2(RTX 4080) | 4GB |
| AAD(割り込み検出) | CPU処理(GPU不要) | — |
単一GPU環境での構築コストについてはトータルコストガイドを、GPU VPSでの構築はGPU VPS比較記事を参照してください。
エンタープライズ音声エージェントのセキュリティと運用
コールセンター・ヘルプデスクなど本番環境で音声エージェントを運用する際のセキュリティと運用考慮点を説明します。
音声データのプライバシー保護
音声通話データは個人情報を含む可能性が高く、適切な保護措置が必要です。
- 音声データのローカル処理: ローカルNIMプロファイルを使用することで音声データが外部に出ない構成を実現できます
- 通話録音のポリシー設定: blueprint.yamlの
recording.enabled: falseで録音を無効化 - 個人情報マスキング: ASR変換後のテキストからクレジットカード番号・マイナンバー等を自動マスキングするフィルターを設定
- 保存ログの暗号化: 会話ログはAES-256で暗号化してストレージに保存
NemoClawのセキュリティ機能と組み合わせることで、音声エージェントのセキュリティポリシーを一元管理できます。
音声エージェントの品質モニタリング
本番環境では以下のメトリクスを継続的に監視することを推奨します。
| メトリクス | 目標値 | 監視ツール |
|---|---|---|
| エンドツーエンドレイテンシ(P95) | <300ms | Prometheus + Grafana |
| ASR誤認識率(WER) | <5%(クリア音声) | NeMo評価ツール |
| 割り込み誤検知率 | <2% | カスタムメトリクス |
| 音声合成RTF(Real-Time Factor) | <0.3 | MagpieTTSダッシュボード |
| 同時接続数 | サーバー容量の80%以下 | NemoClawステータス |