ニューラル音声合成(TTS)とは?
読み方: ニューラルおんせいごうせい
30秒まとめ
ディープラーニングでテキストを人間のように自然な音声へ変換する音声合成技術。イントネーション・間・感情まで再現する。実在の人物の声の無断クローンは肖像権・パブリシティ権の侵害となるおそれ。
ニューラル音声合成(TTS)の意味・定義
ニューラル音声合成(neural TTS)とは、ディープラーニングを用いてテキストを人間のように自然な音声に変換する技術で、従来の機械的な合成音声から大きく進化したものです。ElevenLabs・Murf・PlayHT・LOVO・WellSaid Labsなどが代表的ツールです。ニューラルネットワークが大量の音声データから話し方を学習し、イントネーション・間・強弱・感情表現まで再現するため、人間のナレーションと聞き分けが難しいレベルに達しています。多言語・多数の話者ボイスから選べ、速度・ピッチ・感情を調整可能で、動画ナレーション・YouTube・eラーニング・オーディオブック・IVR(電話自動応答)・ポッドキャストなど幅広い用途で使われます。関連技術にボイスクローン(特定の人の声を複製する技術)があります。注意点として、(1)実在の有名人・他人の声を無断でクローンして使うことは肖像権・パブリシティ権の侵害やなりすましとなり多くのツールで禁止されていること、(2)生成音声の商用利用可否やクレジット表記の要否はプランで異なること、(3)本人が話したかのように偽る詐欺・偽情報への利用は厳禁であること、(4)YouTube等ではAI生成・合成音声の開示が求められる場合があること、が挙げられます。