トークン
とーくん自然言語処理
意味・定義
AIモデルがテキストを処理する際の最小単位。単語の一部や単語全体を表す。
解説
トークンは、AIが文章を処理する際の最小単位です。言葉を細かく分割したもので、AIはトークン単位で文章を理解し、生成します。 英語では、1トークンは約4文字、1単語は約1.3トークンに相当します。日本語の場合、1文字が1〜2トークンになることが多いです。例えば「こんにちは」は3〜5トークン程度になります。 トークンの数は、AI利用のコストと性能に直結します。OpenAIのAPIは、入力と出力のトークン数で料金が決まります。また、各モデルには処理できるトークン数の上限(コンテキストウィンドウ)があり、GPT-4では最大128,000トークンまで処理できます。 トークン化の方法も重要です。現在主流のBPE(Byte Pair Encoding)は、頻出する文字列をまとめて1トークンにすることで、効率的に文章を表現します。これにより、より長い文脈を扱えるようになりました。
使い方・例文
"ChatGPTで長い文章を要約する際、入力が8,000トークン、出力が500トークンなら、合計8,500トークン分の料金がかかります。GPT-4の場合、入力1,000トークンあたり約0.03ドル、出力1,000トークンあたり約0.06ドルなので、この要約には約0.27ドルかかる計算です。 プログラミングでは、コードもトークンとして扱われます。例えば、Pythonの関数定義「def calculate_sum(a, b):」は約10トークンになります。長いコードをAIに渡す際は、トークン数を意識して、必要な部分だけを送ることでコストを抑えられます。"