音声認識

おんせいにんしき
音声認識

意味・定義

人間の音声をテキストに変換するAI技術。

解説

音声認識は、人間の音声をテキストに変換する技術です。Siri、Google Assistant、音声入力など、日常的に使われています。 音声認識の仕組みは、音声の波形を分析し、音素(音の最小単位)を識別し、単語や文を推定します。初期の音声認識は、隠れマルコフモデル(HMM)を使っていました。近年は、ディープラーニングを使い、精度が飛躍的に向上しました。 Transformerベースのモデル(Whisper、Wav2Vec2など)は、ノイズが多い環境でも高精度に認識できます。また、多言語対応、方言対応、話者適応など、様々な機能が追加されています。 音声認識は、音声アシスタント、議事録作成、字幕生成、音声検索、アクセシビリティ支援など、幅広い用途で使われています。

使い方・例文

  • "会議では、音声認識が発言をリアルタイムでテキスト化し、議事録を自動作成します。複数の話者を識別し、誰が何を言ったかを記録します。これにより、議事録作成の時間が大幅に削減されます。 動画配信では、音声認識が自動で字幕を生成します。YouTubeは、100以上の言語で自動字幕を提供しています。また、視覚障害者向けには、音声認識と音声合成を組み合わせて、テキストを音声で読み上げるスクリーンリーダーが使われています。"

関連語

関連記事