拡散モデル

かくさんもでる
生成AI

意味・定義

ノイズを段階的に除去することで高品質な画像を生成するAI技術。

解説

拡散モデルは、画像生成AIの最新技術です。ノイズから徐々に画像を生成する仕組みで、高品質で多様な画像を作れます。 拡散モデルの学習は、2つのプロセスから成ります。順方向プロセスでは、画像に少しずつノイズを加えて、最終的に完全なノイズにします。逆方向プロセスでは、ノイズから少しずつノイズを除去して、元の画像を復元します。AIは、この逆方向プロセスを学習します。 生成時は、ランダムなノイズから始めて、学習した逆方向プロセスを繰り返し適用します。テキストプロンプトで生成内容を制御する場合、各ステップでプロンプトの情報を参照しながらノイズを除去します。 Stable Diffusion、Midjourney、DALL-E 2など、主要な画像生成AIが拡散モデルを採用しています。GANと比べて、学習が安定し、多様な画像を生成できる利点があります。

使い方・例文

  • "Stable Diffusionでは、「夕日に照らされた富士山、油絵風」というプロンプトを入力すると、拡散モデルがランダムノイズから始めて、徐々に富士山の画像を生成します。50〜100ステップのノイズ除去を経て、最終的な画像が完成します。 画像編集では、既存の画像にノイズを少し加えてから、新しいプロンプトで逆方向プロセスを実行することで、画像の一部を変更できます。例えば、「晴れた日の写真」を「雨の日」に変換したり、「若い人の顔」を「年配の人」に変換したりできます。"

関連語

関連記事