大規模言語モデル

だいきぼげんごもでる

自然言語処理

意味・定義

膨大なテキストデータで学習された、数十億から数兆のパラメータを持つニューラルネットワークモデル。LLM（Large Language Model）とも呼ばれる。

解説

大規模言語モデル（LLM）は、膨大なテキストデータで学習された巨大なニューラルネットワークです。数十億〜数千億個のパラメータを持ち、人間のような文章を生成できます。 LLMの「大規模」は、モデルのサイズとデータ量の両方を指します。GPT-3は1750億パラメータ、GPT-4はさらに大きいと推定されます。学習データは、インターネット上の書籍、記事、ウェブサイト、コードなど、数兆語に及びます。 LLMは、次の単語を予測するタスクで学習されます。「私は昨日、公園に＿＿」という文があれば、「行った」「いた」などの単語を予測します。この単純なタスクを膨大なデータで繰り返すことで、言語の構造、知識、推論能力を獲得します。 LLMの応用範囲は広大です。文章生成、翻訳、要約、質問応答、コード生成、対話など、あらゆる言語タスクに対応できます。ChatGPT、Claude、Geminiなど、主要なAIサービスがLLMをベースにしています。

使い方・例文

"カスタマーサポートでは、LLMが顧客の問い合わせを理解し、適切な回答を生成します。複雑な質問でも、過去の対応履歴や製品マニュアルを参照しながら、的確に答えられます。プログラミングでは、GitHub Copilotがコメントや関数名からコードを自動生成します。LLMが数百万のコードリポジトリから学習しているため、様々なプログラミング言語やフレームワークに対応できます。また、教育では、LLMが学生の質問に答えたり、レポートの添削をしたりします。"

大規模言語モデル

意味・定義

解説

使い方・例文

関連語

関連記事

ChatGPT

GPT-4

Claude

Gemini