固有表現抽出

こゆうひょうげんちゅうしゅつ
自然言語処理

意味・定義

テキストから人名、地名、組織名、日付などの固有表現を自動的に抽出するNLP技術。NER(Named Entity Recognition)とも呼ばれる。

解説

固有表現抽出(NER)は、テキストから人名、地名、組織名、日付などの固有名詞を自動抽出する技術です。自然言語処理の基本タスクの一つです。 固有表現抽出は、テキストを単語に分割し、各単語が固有表現かどうかを判定します。さらに、固有表現の種類(人名、地名、組織名など)も分類します。例えば、「東京でAppleの新製品が発表された」という文から、「東京」(地名)、「Apple」(組織名)を抽出します。 従来は、辞書ベースやルールベースの手法が使われていました。近年は、BERT、GPTなどのディープラーニングモデルが主流です。これらのモデルは、文脈を理解し、未知の固有表現も高精度で抽出できます。 固有表現抽出は、情報抽出、質問応答、文書要約、検索エンジンなど、様々なNLPタスクの基盤技術です。

使い方・例文

  • "ニュース記事の分析では、固有表現抽出が記事から人物、企業、場所、日付を自動抽出します。これにより、「誰が、いつ、どこで、何をしたか」を構造化データとして保存し、検索や分析を容易にします。 契約書の処理では、固有表現抽出が当事者名、契約日、金額、住所などを自動抽出します。手作業でのデータ入力が不要になり、処理時間が大幅に短縮されます。また、SNS分析では、投稿から企業名や製品名を抽出し、ブランドの言及頻度や評判を監視します。"

関連語

関連記事