リアルタイム音声変換とは?
読み方: リアルタイムおんせいへんかん
30秒まとめ
マイクに入力した声をほぼ遅延なくその場で別の声へ変換する技術。配信・ゲーム・通話でのボイスチェンジに使われます。
リアルタイム音声変換の意味・定義
リアルタイム音声変換(Real-time Voice Conversion)とは、マイクから入力された声を、ほぼ遅延(レイテンシ)なくその場で別の声質・キャラクターへ変換する技術です。録音後にじっくり処理するナレーション生成と異なり、ライブ配信・オンラインゲームのボイスチャット・通話など、即時性が求められる場面で使われます。技術的には、入力音声から話者性・抑揚・音素の特徴を抽出し、目標とする声のモデルへマッピングして音声を再合成します。実用上は「変換品質」と「遅延の小ささ」の両立が重要で、遅延が大きいと会話がかみ合わなくなります。VoicemodやMagicMicなどのツールがDiscord・OBSと連携し、配信者・ゲーマーに広く使われています。VTuberがアバターに合った声で活動したり、プライバシー保護のために本来の声を隠したりする用途もあります。なお、リアルタイム変換であっても、他人の声へのなりすましや詐欺目的の利用は法令・規約違反となるため厳禁です。