音声合成

おんせいごうせい
音声認識

意味・定義

テキストから人間の音声を生成するAI技術。TTS(Text-to-Speech)とも呼ばれる。

解説

音声合成(TTS)は、テキストを人間の音声に変換する技術です。読み上げソフト、音声アシスタント、オーディオブックなどで使われています。 音声合成の仕組みは、テキストを音素(音の最小単位)に変換し、音素を音声波形に変換します。初期の音声合成は、機械的で不自然な音声でした。近年は、ディープラーニングを使い、人間の音声と区別がつかないほど自然な音声を生成できます。 WaveNet、Tacotron、FastSpeechなどのモデルが、高品質な音声合成を実現しています。また、感情や話し方のスタイルを制御することもできます。例えば、「嬉しそうに」「ゆっくりと」といった指示で、音声の表現を変えられます。 音声合成は、視覚障害者向けのスクリーンリーダー、カーナビゲーション、音声アシスタント、オーディオブック、アナウンスシステムなど、様々な用途で使われています。

使い方・例文

  • "視覚障害者向けのスクリーンリーダーは、ウェブサイトやアプリのテキストを音声で読み上げます。ユーザーは、画面を見なくても情報にアクセスできます。音声合成の自然さが向上したことで、長時間の使用でも疲れにくくなりました。 オーディオブックでは、音声合成が書籍のテキストを音声に変換します。人間のナレーターを雇うよりも低コストで、多言語対応も容易です。また、ゲームでは、キャラクターの台詞を音声合成で生成し、開発コストを削減しています。"

関連語

音声認識生成AIVALL-E

関連記事