Speech-to-Text（音声認識）とは？

読み方: スピーチトゥテキスト

30秒まとめ

音声をテキストに自動変換するAI技術。議事録作成や字幕生成に不可欠な基盤技術。

Speech-to-Text（音声認識）の意味・定義

Speech-to-Text（STT、音声認識）は、人間の音声を自動的にテキストデータに変換するAI技術です。OpenAIのWhisperモデルの登場以降、認識精度が飛躍的に向上し、多言語対応の高精度な音声認識が可能になりました。Otter.ai、Fireflies.ai、Notta、tl;dvなどのサービスで活用され、会議の自動議事録作成、動画の字幕生成、コールセンターの通話分析、医療カルテの音声入力などに利用されています。リアルタイム認識とバッチ処理の両方に対応し、話者分離（誰が発言したか）やタイムスタンプ付与などの機能も実装されています。

Speech-to-Text（音声認識）とは？

30秒まとめ

Speech-to-Text（音声認識）の意味・定義

関連するAIツール

Otter.ai

Fireflies.ai

Notta

tl;dv

Krisp

関連する用語

運営者が開発したAIマーケティングツール

MixCast

AIOPulse

UGCast