Speech-to-Text(音声認識)とは?

読み方: スピーチトゥテキスト

30秒まとめ

音声をテキストに自動変換するAI技術。議事録作成や字幕生成に不可欠な基盤技術。

Speech-to-Text(音声認識)の意味・定義

Speech-to-Text(STT、音声認識)は、人間の音声を自動的にテキストデータに変換するAI技術です。OpenAIのWhisperモデルの登場以降、認識精度が飛躍的に向上し、多言語対応の高精度な音声認識が可能になりました。Otter.ai、Fireflies.ai、Notta、tl;dvなどのサービスで活用され、会議の自動議事録作成、動画の字幕生成、コールセンターの通話分析、医療カルテの音声入力などに利用されています。リアルタイム認識とバッチ処理の両方に対応し、話者分離(誰が発言したか)やタイムスタンプ付与などの機能も実装されています。

関連するAIツール

関連する用語

運営者が開発したAIマーケティングツール