音声合成

おんせいごうせい

音声認識

意味・定義

テキストから人間の音声を生成するAI技術。TTS（Text-to-Speech）とも呼ばれる。

解説

音声合成（TTS）は、テキストを人間の音声に変換する技術です。読み上げソフト、音声アシスタント、オーディオブックなどで使われています。音声合成の仕組みは、テキストを音素（音の最小単位）に変換し、音素を音声波形に変換します。初期の音声合成は、機械的で不自然な音声でした。近年は、ディープラーニングを使い、人間の音声と区別がつかないほど自然な音声を生成できます。 WaveNet、Tacotron、FastSpeechなどのモデルが、高品質な音声合成を実現しています。また、感情や話し方のスタイルを制御することもできます。例えば、「嬉しそうに」「ゆっくりと」といった指示で、音声の表現を変えられます。音声合成は、視覚障害者向けのスクリーンリーダー、カーナビゲーション、音声アシスタント、オーディオブック、アナウンスシステムなど、様々な用途で使われています。

使い方・例文

"視覚障害者向けのスクリーンリーダーは、ウェブサイトやアプリのテキストを音声で読み上げます。ユーザーは、画面を見なくても情報にアクセスできます。音声合成の自然さが向上したことで、長時間の使用でも疲れにくくなりました。オーディオブックでは、音声合成が書籍のテキストを音声に変換します。人間のナレーターを雇うよりも低コストで、多言語対応も容易です。また、ゲームでは、キャラクターの台詞を音声合成で生成し、開発コストを削減しています。"

音声合成

意味・定義

解説

使い方・例文

関連語

関連記事

音声認識

Whisper