Speech-to-Text(音声認識)とは?
読み方: スピーチトゥテキスト
30秒まとめ
音声をテキストに自動変換するAI技術。議事録作成や字幕生成に不可欠な基盤技術。
Speech-to-Text(音声認識)の意味・定義
Speech-to-Text(STT、音声認識)は、人間の音声を自動的にテキストデータに変換するAI技術です。OpenAIのWhisperモデルの登場以降、認識精度が飛躍的に向上し、多言語対応の高精度な音声認識が可能になりました。Otter.ai、Fireflies.ai、Notta、tl;dvなどのサービスで活用され、会議の自動議事録作成、動画の字幕生成、コールセンターの通話分析、医療カルテの音声入力などに利用されています。リアルタイム認識とバッチ処理の両方に対応し、話者分離(誰が発言したか)やタイムスタンプ付与などの機能も実装されています。