Gemini

じぇみに
自然言語処理

意味・定義

Googleが開発したマルチモーダル大規模言語モデル。テキスト、画像、音声、動画を統合的に処理できる。

解説

Geminiは、Googleが2023年12月に発表した大規模言語モデルです。GPT-4に対抗するモデルとして開発され、マルチモーダル能力と長いコンテキストウィンドウが特徴です。 Geminiには、Ultra、Pro、Nanoの3つのバージョンがあります。Ultraは最も高性能で、複雑なタスクに対応します。Proは汎用的なタスクに適しており、Google Bardで使われています。Nanoはスマートフォンなどのデバイス上で動作する軽量版です。 Gemini 1.5 Proは、100万トークンという驚異的なコンテキストウィンドウを持ちます。これは、約700,000語、1時間の動画、11時間の音声に相当します。長い文書や動画全体を一度に分析できるため、従来のモデルでは不可能だったタスクが可能になりました。 Googleの各種サービスに統合されており、Google検索、Gmail、Google Docs、Google Sheetsなどで、AI支援機能として利用できます。また、Google Cloud経由でAPI提供もされており、企業のアプリケーションに組み込めます。

使い方・例文

  • "動画分析では、1時間の講義動画をGeminiに渡すと、内容を要約し、重要なポイントを抽出し、質問に答えます。学生は、長い講義を見返さなくても、特定のトピックについて質問できます。 プログラミングでは、大規模なコードベース全体をGeminiに読み込ませ、「このバグの原因はどこですか」「この機能を実装するにはどのファイルを修正すべきですか」といった質問ができます。また、Google Docsでは、文書の下書き、要約、翻訳などをGeminiが支援します。"

関連語

関連記事