音声認識
おんせいにんしき音声認識
意味・定義
人間の音声をテキストに変換するAI技術。
解説
音声認識は、人間の音声をテキストに変換する技術です。Siri、Google Assistant、音声入力など、日常的に使われています。 音声認識の仕組みは、音声の波形を分析し、音素(音の最小単位)を識別し、単語や文を推定します。初期の音声認識は、隠れマルコフモデル(HMM)を使っていました。近年は、ディープラーニングを使い、精度が飛躍的に向上しました。 Transformerベースのモデル(Whisper、Wav2Vec2など)は、ノイズが多い環境でも高精度に認識できます。また、多言語対応、方言対応、話者適応など、様々な機能が追加されています。 音声認識は、音声アシスタント、議事録作成、字幕生成、音声検索、アクセシビリティ支援など、幅広い用途で使われています。
使い方・例文
"会議では、音声認識が発言をリアルタイムでテキスト化し、議事録を自動作成します。複数の話者を識別し、誰が何を言ったかを記録します。これにより、議事録作成の時間が大幅に削減されます。 動画配信では、音声認識が自動で字幕を生成します。YouTubeは、100以上の言語で自動字幕を提供しています。また、視覚障害者向けには、音声認識と音声合成を組み合わせて、テキストを音声で読み上げるスクリーンリーダーが使われています。"