大規模言語モデル(LLM)によるFew-shotクラスタリングの可能性

Vol.75 No.2 2024年3月 ビジネスの常識を変える生成AI特集 ~社会実装に向けた取り組みと、それを支える生成AI技術~

半教師ありクラスタリングは従来の教師なしクラスタリングとは異なり、ユーザーがデータに意味のある構造を与えられるようにします。これは、クラスタリングアルゴリズムをユーザーの意図(インテント)に合致させることに役立ちます。しかし、既存のアプローチでは、クラスターを改善するためにエキスパートによる大量のフィードバックを必要としていました。本稿では、大規模言語モデル(LLM)がエキスパートのガイダンスを強化し、クエリ効率の高いFew-shot半教師ありテキストクラスタリングを実現できるかどうかを検討します。最初に、LLMがクラスタリングの改善に非常に効果的であることを示します。次に、LLMをクラスタリングに組み込む際の3つの段階として、クラスタリング前(入力特徴の改善)、クラスタリング中(クラスターに制約を提供)、クラスタリング後(LLMを使用した修正)の検討を行います。LLMを最初の2つの段階に組み込むことでクラスター品質が定常的に大きく改善し、またLLMによって所望のクラスターを生成する際にユーザーがコストと精度の兼ね合いを考慮できるようになることが明らかになりました。

1. はじめに

教師なしクラスタリングは、不可能なタスクを行うことを目的としています。すなわち、ドメインエキスパートのニーズを特定せずに、そのニーズを満たすようにデータを整理することです。クラスタリングはその性質上、基本的には条件が決まっていない問題です。リッチ カルアナ氏の「Clustering: probably approximately useless?」1)によれば、条件が決まっていないことにより、クラスタリングは「おそらくほぼ役に立たない」とされています。

一方で、半教師ありクラスタリングは、ドメインエキスパートがクラスタリングアルゴリズムを誘導できるようにすることでこの問題を解決しようとしています2)。これまでの研究では、エキスパートとクラスタリングアルゴリズムとの間で異なるタイプの相互作用が導入されています。例えば、手作業で選ばれたシードポイントでクラスターを初期化する3)、ペアワイズ制約を指定する4)5)、特徴のフィードバックを提供する6)、クラスターを分割または統合する7)、または1つのクラスターを固定し、残りを精緻化する8)などがあります。これらのインタフェースはすべて、エキスパートが最終的なクラスターを制御できることを示しています。ただし、これにはエキスパートの労力がかなり必要です。例えば、トイデータセットに対するシミュレーション8)では、分割/統合、ペアワイズ制約、ロック及び精緻化の相互作用について、どのクラスタリングアルゴリズムでも、ユーザーの仕様と一致するクラスターを生成するのに20~100回のフィードバック相互作用が必要でした。大規模な実世界データセットでは、可能なクラスターが多いため、インタラクティブなクラスタリングアルゴリズムに必要なフィードバックコストが膨大になる可能性があります。

本研究では、LLMを人間の意思決定のノイズシミュレーションとして使用する最近の一連の研究に基づき9)-11)、半教師ありテキストクラスタリングに対して異なるアプローチを提案します。具体的には、「エキスパートがLLMに望む相互作用(例えば、ペアワイズ制約)のデモンストレーションをいくつか提供した後、LLMがクラスタリングアルゴリズムを指示することは可能か」という調査課題への回答を試みます(図1)。

図1 従来の半教師ありクラスタリングとLLMによるFew-shotクラスタリング

また、テキストクラスタリングプロセスの3つの段階であるクラスタリング前、クラスタリング中、及びクラスタリング後におけるLLM活用の可能性の検討を行います。クラスタリング前には、テキスト表現を拡張することでLLMを活用します。各例に対して、LLMを使用してキーフレーズを生成し、これらのキーフレーズをエンコードしてベースの表現に追加します。クラスタリング中には、クラスター制約を追加することでLLMの組み込みを行います。半教師ありクラスタリングのための古典的なアルゴリズムを採用することで、LLMをペアワイズ制約の擬似オラクルとして使用します。そして、ペアワイズ制約の擬似オラクルを使用して信頼度の低いクラスター割り当てを修正することにより、クラスタリング後にLLMを使用することを検討します。すべてのケースにおいて、ユーザーが記述してLLMにプロンプトを提供することによって、ユーザーとクラスタリングアルゴリズムの相互作用が可能になります。

これらの3つの方法を、エンティティの標準化、意図(インテント)によるクエリのクラスタリング、トピックによるツイートのグループ化という3つのタスクにわたり、5つのデータセットにおいて評価しました。その結果、文書の埋め込みに対する従来のK-Meansクラスタリングと比較して、LLMを使用して各文書の表現を豊かにすると、対象のすべてのデータセットにおいてあらゆる指標でクラスター品質が経験的に向上することが明らかになりました。LLMがペアワイズの類似性を判定できる場合には、LLMをペアワイズ制約の擬似オラクルとして使用することは非常に効果が得られる可能性がありますが、効果を発揮するにはより多くのLLMクエリが必要です。しかし、LLMによる修正がもたらす利点は限定的です。重要なのは、LLMはわずかなコストで、人間のオラクルを使用した従来の半教師ありクラスタリングの性能に近づくことが可能ということです。

更にその簡単さにおいて、近年のディープラーニングに基づくテキストクラスタリング手法12)13)とは一線を画しています。本研究の3つの方法のうち2つ(LLMを文書の表現を拡張するために使用する方法及びLLMをクラスタリングの出力を修正するために使用する方法)は、どのようなテキストクラスタリングアルゴリズムに対してどのようなテキスト特徴のセットを使用しても、プラグインとして追加できます*1。LLMプロンプトのどの側面がクラスタリングの挙動に最も影響を与えるかを調査した結果、単に指示を(デモンストレーションなしで)使用するだけでも、大きな付加価値があることが分かりました。これにより、自然言語による指示をクラスタリングアルゴリズムに統合することに向けた将来の研究方向に、モチベーションを与えることが期待されます。

  • *1
    その一方で、ペアワイズ制約クラスタリングでは、基礎となるクラスタリングアルゴリズムとしてK-Meansを使用する必要があります。

2. LLMの組み込み手法

第2章では、クラスタリングにLLMを組み込むために本研究で使用する手法について紹介します。

2.1 LLMキーフレーズ拡張によるクラスタリング

通常、エキスパートはクラスタリングを行う前に、各文書のどの側面をとらえたいかを既に把握しています。これらの重要な要素をクラスタリングアルゴリズムにゼロから抽出させるのではなく、これらの側面を事前に全体的に強調する(それによってタスクの重点を指定する)ことが重要です。このことを実現するために、LLMを使用してクラスタリングのニーズに関連するエビデンスでテキスト表現を強化・拡張し、各文書のテキスト表現をタスク依存にします。具体的には、キーフレーズを生成するLLMに各文書を通過させます。これらのキーフレーズは埋め込みモデルによってエンコードされ、キーフレーズの埋め込みは元の文書の埋め込みに連結されます。

GPT-3(具体的には、gpt-3.5-turbo-0301)を使用してキーフレーズを生成します。LLMには指示で始まる短いプロンプトを与えます。例えば、「オンラインバンキングいくつかのクエリを、それらが同じインテントを表現しているかどうかに基づいてクラスタリングしようとしています。各クエリについて、インテントを表現できる包括的なキーフレーズのセットをJSON形式のリストとして生成してください」のプロンプトです。この指示の後には、図2の上半分の例に示されているようなキーフレーズのデモが4つ続きます。

図2 キーフレーズ埋め込みとの連結による文書表現の拡張

その後、LLMによって生成されたキーフレーズを単一のベクトルにエンコードし、このベクトルを元の文書のテキスト表現と連結します。より優れたエンコーダを利用して、LLMから知識を分離するために、元のテキストと同じエンコーダを使用してキーフレーズをエンコードします*2

このアプローチは、マールテン ラエディット氏らの「IDAS: Intent Discovery with Abstractive Summarization」14)による同時期の研究と同様のものであり、そこでは著者らは教師なしでインテントを発見するためにキーフレーズを生成しています。

2.2 擬似オラクルペアワイズ制約クラスタリング

半教師ありクラスタリングにおける最も一般的なアプローチは、恐らくペアワイズ制約クラスタリングと言えるでしょう。このアプローチでは、ユーザーの持つ抽象的なクラスタリングインテントが具体的なフィードバックから暗黙的に導出されるように、リンクする必要があるかまたはリンクできないポイントのペアを、オラクル(例えば、ドメインエキスパート)が選択します15)。つまり、ユーザーは、どの種類のポイントをグループ化するかを概念的に説明し、そして最終的なクラスターがこのグループ化に従うようにします。本研究ではこのパラダイムを使用して、LLMがクラスタリング中にエキスパートによるガイダンスを強化する可能性を検討します。その際、LLMを擬似オラクルとして使用します。

分類するペアを選択するために、エンティティの正規化と他のテキストクラスタリングタスクに対して異なる戦略を採用しています。テキストクラスタリングの場合、Explore-Consolidateアルゴリズム4)を適用して、まず埋め込み空間から多様なペアを(リンクできないポイントのペアを特定するために)収集します。次に、既に選択されたポイントの近傍のポイントを(リンクが必要なポイントのペアを見つけるため)収集します。クラスターが非常に多くリンクが必要なポイントが非常に少ないエンティティを正規化するために、埋め込み空間で最も近いが異なるポイントのペアのみサンプリングします。

LLMに簡潔なドメイン固有のプロンプトを与え、その後にテストセットのラベルから取得したペアワイズ制約のデモを最大4回行います。これらのペアワイズ制約を使用して、PCKMeansアルゴリズム4)によってクラスターを生成します(図3)。このアルゴリズムは、任意の制約に違反するクラスター割り当てに対して、ハイパーパラメータwで重み付けされたペナルティを適用します。そして、 シイカー ヤシシュトゥ氏らの「CESI: Canonicalizing Open Knowledge Bases Using Embeddings and Side Information」16)に従い、このパラメータを各データセットの検証分割で調整します。擬似オラクルのペアワイズ制約の信頼性が低いという可能性があるため、クラスターの初期化には、先行研究4)のようにペアワイズ制約の近傍構造を直接に使用せず、代わりにK-Means++17)を使用します。

図3 最大4つの有効なペアワイズ制約のLLMを使用した特定データセットのペアワイズ制約の生成

2.3 LLMを使用したクラスタリングの修正

最後に、既存のクラスターセットがあるが、局所的な変更を最小限に抑えてその品質を向上させたいという状況を検討します。この状況を実現するために、第2章2節と同じペアワイズ制約の擬似オラクルを使用します。この手順を図4で示します。

図4 LLMを使用したクラスタリングの修正手順

信頼度の低いポイントを特定するために、最も近いクラスターと2番目に近いクラスターの間のマージンが最も小さいポイントkを見つけます(実験ではk=500と設定)。各クラスターは、埋め込み空間内でそのクラスター中心点(セントロイド)に最も近いエンティティによってテキスト的に表現されます。信頼度の低い各ポイントに対しては、そのポイントが現在割り当てられているクラスターの代表的ポイントと正しくリンクされているかどうかまずLLMに問い合わせます。もしLLMが、このポイントは現在のクラスターにリンクされるべきでないと予測した場合、埋め込み空間で2番目に近い4つのクラスターを近接度によりソートし、再ランキングの候補とみなします。現在のポイントを再ランキングするために、このポイントを各候補クラスターの代表的ポイントにリンクすべきかどうかLLMに問い合わせます。LLMからの応答が肯定的だった場合、このポイントを新しいクラスターに割り当て直します。LLMがすべての代替案に対して否定的に応答する場合、既存のクラスター割り当てを維持します。

  • *2
    例外的なケースとして、エンティティのクラスタリングが挙げられます。ここでは、BERTエンコーダはWikipediaの文章をクラスタリングするために特化されていますので、キーフレーズのクラスタリングをサポートするためにDistilBERTを使用しています。

3. タスク

3.1 エンティティの正規化

タスク: エンティティの正規化では、名詞句のコレクション数式画像を、数式画像及び数式画像が同じエンティティを指す場合にのみ、数式画像となるようなサブグループ数式画像にグループ化する必要があります。例えば、名詞句 “President Biden” (数式画像) 、 “Joe Biden”(数式画像)、及び “the 46th U.S. President”(数式画像) が同じエンティティを指している場合、これらは1つのグループ(例えば、C1)にクラスタリングされることになります。名詞句のセットMは、通常OIE(Open Information Extraction)システムによって生成された「オープンナレッジグラフ」のノードです*3。関連するエンティティリンキングのタスク18)19)とは異なり、対象のすべてのエンティティがキュレーションされたナレッジグラフ、地名辞典や百科事典に含まれているとは仮定していません。

エンティティの正規化は、半教師ありクラスタリングの課題に取り組むのに有用です。ここでは、数百または数千のクラスターがあり、クラスターごとに比較的少数のポイントしかなく、難しいクラスタリングタスクとなっています。

データセット: 次の2つのデータセットを使用して実験を行います。

  • OPIEC59k20)には22,000の名詞句(2,138の一意のエンティティ表層形式を含む)があり、これらは490のグラウンドトゥルースクラスターに属しています。名詞句はMinIE21)22) によって抽出され、グラウンドトゥルースのエンティティクラスターは同じWikipediaの記事にリンクするアンカーテキストです。
  • ReVerb45k16)には15,500のメンション(12,295の一意のエンティティ表層形式を含む)があり、これらは6,700のグラウンドトゥルースクラスターに属しています。名詞句はReVerb23)システムの出力であり、「グラウンドトゥルースクラスター」のエンティティクラスターはエンティティをFreebaseナレッジグラフに自動的にリンクさせたものです。ラベリングエラーを取り除くために、手動でフィルタリングを行ったウェイ シェン氏らの「Multi-View Clustering for Open Knowledge Base Canonicalization」20)のデータセットのバージョンを使用します。

正規化の指標: ウェイ シェン氏らの「Multi-View Clustering for Open Knowledge Base Canonicalization」20)が使用している標準的な指標に従います。

  • マクロ適合率と再現率
    • -
      適合率(Prec):予測されたクラスターのすべての要素が同じゴールドクラスターに属している割合はどれくらいか
    • -
      再現率(Rec):ゴールドクラスターのすべての要素が同じ予測クラスターに属している割合はどれくらいか
  • ミクロ適合率と再現率
    • -
      適合率(Prec): 予測クラスターの過半数と同じゴールドクラスターに属するポイントの数はどれくらいか
    • -
      再現率(Rec): ゴールドクラスターの過半数と同じ予測クラスターに属するポイントの数はどれくらいか
  • ペアワイズ適合率と再現率
    • -
      適合率(Prec): 予測されたリンクが実際にゴールドクラスターによってリンクされたポイントのペアの数はどれくらいか
    • -
      再現率(Rec): ゴールドクラスターによってリンクされたポイントのペアのうち、予測されたリンクもされているペアの数はどれくらいか

最後に、各ペアの調和平均を計算して、マクロF1、ミクロF1、及びペアワイズF1を得ます。

3.2 テキストクラスタリング

タスク:次に、短いテキスト文書のクラスタリングのケースを検討します。このクラスタリングタスクは文献で広く研究されています24)

データセット:この設定では、以下の3つのデータセットを使用します。

  • Bank7725)には、77あるインテントカテゴリのオンラインバンキングアシスタントに対する、3,080のユーザークエリが含まれています。
  • CLINC26)には、「スコープ外」のクエリを削除13)した150あるインテントカテゴリのタスク指向対話システムに対する、4,500のユーザークエリが含まれています。
  • Tweet27)には、89あるカテゴリの2,472のツイートが含まれています。

指標:先行研究12)に従い、テキストクラスターをグラウンドトゥルースと比較するために、正規化した相互情報量及び精度(ハンガリアンアルゴリズム28)を使用して、グラウンドトゥルースと予測クラスターの最良のアラインメントを求めることにより得られる)を使用します。

  • *3
    オープン情報抽出(OIE)は、スキーマフリーな方法で自然言語テキストから表層形式(主語、関係、目的語)トリプルを抽出するタスクです。

4. ベースライン

4.1 埋め込み上のK-Means

本研究の手法は、K-Means++クラスター初期化17)を用いてエンコードしたデータの、K-Meansクラスタリング29) のベースライン上に構築されています。使用する特徴とクラスターセンターの数は、主に先行研究に従って、タスクごとに選択します。

エンティティの正規化: 先行研究16)20)に従い、エンティティへの言及(例: 「古代ギリシャ人により紀元前600年にマルセイユが建都されて以来」)それぞれを、特定の言及コンテキストに関係なく、一意の表層形式(例:「マルセイユ」)をグローバルに表現することによってクラスタリングします。一意の表層形式をクラスタリングした後、このクラスターマッピングを個々の言及(個々の文から抽出されたもの)に合成して、言及レベルのクラスターを得ます。

「マルチビュークラスタリング」アプローチ20)に基づき、各名詞句をインターネットからのテキスト言及とOIEシステムから抽出された「オープン」なナレッジグラフを使用して表現します。彼らはBERTエンコーダ30)を使用して、エンティティが発生するテキストコンテキストを表現し(「コンテキストビュー」)、TransEナレッジグラフエンコーダ31)を使用して、オープンナレッジグラフ内のノードを表現します(「ファクトビュー」)。上記論文の著者らは、共参照エンティティからの弱い教示を使用してBERTエンコーダをファインチューニングし、ナレッジグラフ上でのデータ拡張を使用してナレッジグラフ表現を改善することにより、これらのエンコーダを改善します。各エンティティの2つのビューは、表現を生成するために組み合わされます。

前述の論文では、1つのビューで計算されたクラスター割り当てを使用してもう一方のビューでクラスターのセントロイドを初期化する、交互マルチビューのK-Means手順が提案されています。一定回数の反復後、もしビューごとのクラスタリングが一致しない場合、著者らは「コンフリクト解決」手順を実行して、両方のビューで低い慣性を持つ最終的なクラスタリングを求めます。本研究が副次的に貢献したことの一つは、このアルゴリズムを簡略化したことです。著者らが微調整したエンコーダを使用し、各ビューからの表現を連結し、K-Means++初期化17)を使用して、共有ベクトル空間でK-Meansクラスタリングを行うだけで、元の論文で報告された性能を達成できることを確認しました。

最後に、クラスターセンターの数に関しては、Log-Jumpメソッド20)に従い、OPIEC59k及びReVerb45kについて、それぞれ490と6,687のクラスターを選択します。

インテントクラスタリング: Bank77及びCLINCデータセットに関して、ウーウェイ ジャン 氏らの「ClusterLLM: Large Language Models as a Guide for Text Clustering」13)に従い、Instructorエンコーダで各ユーザークエリをエンコードします。エンコーダをガイドするために簡単なプロンプト「Represent utterances for intent classification」を使用します。先行研究に従い、CLINC及びBank77については、それぞれ150と77のクラスターを選択します。

ツイートクラスタリング: デジャオ ジャン 氏らの「Supporting Clustering with Contrastive Learning」12)に従い、文の類似度分類用にファインチューニングされたDistilBERT32)のバージョンを使用して各ツイートをエンコードします33)*4。その際89のクラスターを使用します12)

4.2 対照学習を使用したクラスタリング

第2章で紹介した方法に加えて、以前に発表されたSCCL12)とClusterLLM13)の2つのテキストクラスタリング手法も採用します。これら両方の方法は、ディープエンコーダの対照学習を使用してクラスターを向上させ、本研究で提案される方法よりも大幅に複雑で計算集約的です。SCCLは深い埋め込みクラスタリング34)と教師なし対照学習を組み合わせて、テキストから特徴を学習します。ClusterLLMは、LLMを使用して学習された特徴を改善します。階層的クラスタリングを実行した後、これらの方法ではまた、LLMからの3重フィードバック(「ポイントAはポイントBよりもポイントCに似ていますか?」)を使用して、クラスターの階層からクラスターの粒度を決定し、フラットなクラスターセットを生成します。これらのアプローチとの比較を効果的にするために、本研究ではSCCL及びClusterLLMの先行研究で報告されたものと同じエンコーダを使用します。Bank77及びCLINCに対してはInstructor35)、ツイートに対してはDistilBERT(文の類似度分類用にファインチューニングされたもの)32)33)です。

  • *4
    このモデルはHugging Faceのdistilbert-base-nli-stsb-mean-tokensです。

5. 結果

5.1 結果の概要

表1にエンティティ正規化の実験結果を、そして表2にテキストクラスタリングの結果を示します*5。ここから、テキスト表現を拡張するためにLLMを使用することが最も効果的であり、両方の正規化データセットで最高水準の結果を達成し、すべてのテキストクラスタリングデータセットでK-Meansベースラインを大幅に上回っていることが分かります。LLMによって擬似ラベリングされた20,000のペアワイズ制約が提供された場合、ペアワイズ制約K-Meansは5つのデータセットのうち3つで(OPIEC59kで現行の最高水準を上回る)強力なパフォーマンスを発揮します。次では、各手法が効果を持つ、あるいは持たない要因について、より詳細な分析を行います。

表1 LLMをエンティティ正規化に統合する手法の比較

表2 LLMをテキストクラスタリングに統合するための手法の比較

5.2 実例と主要な要因

各LLMベースの変更がクラスタリングプロセスに与える影響を定性的に調査するために、OPIEC59kデータセットを使用して、さまざまなクラスタリング戦略から得られたクラスターとK-Meansベースラインから得られたクラスターの比較を行います。

ハンガリアンアルゴリズム28)を使用して、各クラスタリングをグラウンドトゥルースに対応させた後、各予測クラスターとそれに対応するグラウンドトゥルースクラスターの間のジャッカード類似度を計算します。LLMベースの介入によって得られたクラスターをベースラインのK-Meansクラスターと比較することで、介入により最も大きな改善があるクラスターと、介入により最も大きな劣化が起こるクラスターを特定します*6

改善されたクラスターと(K-Meansベースラインに対して)劣化したクラスターを1つずつ示していますが、これらは均等な割合で発生するわけではありません。表3に手法ごとに改善されたクラスターと劣化したクラスターの数を示します。図56、及び7では、キーフレーズの拡張、ペアワイズ制約の組み込み、及びLLMによる修正の後のクラスターの例を示し、それらを使用して各アルゴリズムに影響を与える主要な要因に対するインチュイションを提供します。OPIEC59kでは、LLMベースの介入が主にクラスターの改善につながることが明らかです。

表3 各クラスタリングアルゴリズムの出力をグラウンドトゥルースと対応させた後の改善または劣化したクラスターの数

図5 キーフレーズの拡張例
図6 ペアワイズ制約の組み込み例
図7 LLMによる修正の後のクラスターの例
  • *5
    第4章で述べたように、エンティティ正規化を行う際、同じエンティティ表層形式(例: “Marseille”)を含む言及がいくつかあればそれらを同じクラスターに割り当てます。これは先行研究16)20)に従ったものです。このアプローチは多義的な名詞句に対して削減不可能なエラーを引き起こす可能性があります(例:“Marseille”はサッカークラブのOlympique de Marseille、または都市のMarseilleを指す可能性がある)。
  • *6
    評価中のクラスターの整合性の問題による可能性があるため、どちらかのアルゴリズムからの出力が対応するグラウンドトゥルースクラスターとゼロの重複を持つクラスターは無視します。

キーフレーズクラスタリング : 曖昧性解消のために適切な粒度を提供

図5では、LLMが生成したキーフレーズが、エンティティの曖昧性を効果的に解消できることが示されています(例: “Conqueror”(征服者)と “Quest”(クエスト)に対して大きく異なるキーフレーズを生成し、埋め込みベースのベースラインクラスタリングはこれらを誤ってグループ化してしまう)。劣化した例では、これらのキーフレーズがテキストの文脈よりも各エンティティの表層形式に過度に焦点を当てる可能性があることも認められます。これは、複雑なドキュメントにおいてキーフレーズを活用する際に、モデリングとプロンプト技法をより精密にする余地があることを示唆しています。

PCKMeans:不正確で矛盾した制約が大きな影響を持ち得る

図6に示すように、改善されたケースでは、LLMはいくつかのポイント間の関係(例:“Mother”(母)と“Queen Mother”(皇太后))を、埋め込みに対するK-Meansクラスタリングではグループ化されなかったものを正確に特定します。劣化したケースでは、LLMが矛盾する制約を生成し、誤検出につながるケースが見られます。LLMは “Eugenio Pacelli”(エウジェニオ・パチェッリ)と “Pius XII”(ピウス12世)がリンクされなければならず、かつ “Pius XII”と “Holy See”(聖座)がリンクできないと正確に予測しますが、 “Eugenio Pacelli”と “Holy See”の間にリンクがあると誤って予測します。これら矛盾した制約がある結果として、PCKMeansアルゴリズムは更なるポイントを誤ってクラスターにグループ化します。表4では、OPIEC59kを含むいくつかのデータセットにおけるペアワイズ制約の精度を示します。

表4 OPIEC59kを含むいくつかのデータセットにおけるペアワイズ制約の精度

LLMによる修正: 最終的で硬直的な制約により過度な修正に至る可能性がある

図7の劣化したクラスターでは、LLMは、特定の式典で授与された特定の賞でなくアカデミー賞全体に焦点を当てるべきですが、このクラスターの粒度を理解できていません。LLMによるOPIEC59kの修正が全体的に効果を上げているにもかかわらず(表3)、この例によって、各ポイントについてLLMから確定的な判断を取り出すというこの方法の欠点が際立っています。

確定的であるというこの性質は、LLMによる修正の効果に影響を与えます(表5)。表1と表2では、この手法は、データセットに対しすべての指標についてわずかな利得を一貫してもたらしており、改善幅は0.1から5.2の絶対ポイントの範囲内です。表4では、LLMに最も不確実性の高いクラスター割り当ての上位500を再考するよう指示すると、LLMはごく少数のケースでのみポイントを再割り当てします。LLMのペアワイズオラクルは通常正確ですが、元のクラスタリングの信頼度が既に低いポイントに対しては極端に不正確です。

表5 デモまたは指示がない場合のLLMが介入する効果の比較

5.3 アブレーションスタディ:なぜLLMはテキスト拡張で優れているのか?

表1及び表2は、キーフレーズクラスタリングが最も強力なアプローチであり、5つのデータセットのうち3つで最良の結果(他の2つのデータセットでは2番目に強力な手法である擬似オラクルPCKMeansに匹敵するパフォーマンス)を達成することを示しています。これは、LLMがクラスタリングを容易にするためにテキストの内容を拡張するのに有用であることを示唆しています。

それでは、LLMがこの機能において有用である原因は何でしょう? タスク固有のモデリング指示を指定できる能力、デモンストレーションを通じて暗黙的に類似性関数を指定できる能力、または小規模なニューラルエンコーダには欠けている知識を持っていること、どれがその理由でしょうか。

この質問に答えるためにアブレーションスタディを行います。OPIEC59kとCLINCについては、キーフレーズクラスタリング法の使用を考慮しますが、プロンプトから指示またはデモンストレーション例のどちらかを省略します。CLINCについては、小さなエンコーダに短い指示を与えることができるInstructorモデルの特徴に基づくK-Meansクラスタリングと比較します。

指示とデモンストレーションは相補的な利得をもたらす

経験的には、LLMにプロンプトとして指示またはデモンストレーションのどちらかを与えることで、クラスターの品質を向上させることが可能になりますが、両者を与えることにより、最も一貫性のあるポジティブな効果が得られます。質的には、指示を与えながらデモンストレーションを省略すると、一貫性の低い大規模なキーフレーズのセットが生成される一方で、指示なしでデモンストレーションを与えると、より焦点の合ったキーフレーズのグループが生成されますが、所望の側面(例:トピックvsインテント)が反映されないことがあります。

指示によるファインチューニングされたエンコーダは十分な知識を提供できない

なぜGPT-3.5を使用したキーフレーズクラスタリングが、指示のみ(デモンストレーションなし)の設定において、Instructor(指示によりファインチューニングされたエンコーダ)を使用する場合よりも優れているのでしょうか。控えめなスケーリングカーブは、単にスケールが唯一の要因ではないことを示唆しています。つまり、GPT-3.5はGPT-3 (175B)と同等かそれ以上のパラメータを含んでいる可能性が高く、一方でホンチャン ス氏らの「One Embedder, Any Task: Instruction-Finetuned Text Embeddings」35)のInstructor-base/large/XLはそれぞれ110M、335M、及び1.5Bのパラメータを含んでいます。

使用されるプロンプトには次の2種類があることに注目してください。GPT-3.5に使用したプロンプトは非常に詳細ですが、Instructorに対するプロンプトは元の設計に従って簡潔なものになっています(例: “Represent utterances for intent classification”(インテント分類のための表現を示してください))。更に、Instructor-XLにGPT-3.5用のプロンプトを与えて実験しました(表5の一番下の行)。GPT-3.5に与えるプロンプトに対してInstructor-XLのパフォーマンスが悪いことが分かります。指示によりファインチューニングされた現行のエンコーダは、Few-shotクラスタリングを容易にする詳細でタスク固有のプロンプトをサポートするには不十分であることが推測されます。

5.4 LLMを擬似オラクルとして使用すると費用対効果が高い

LLMをクラスタリングプロセスのガイドとして使用することで、クラスター品質を向上できることが分かりました。しかし、LLMは高額であり、市販のLLM APIをクラスタリング中に使用するとクラスタリングプロセスに追加のコストがかかります。

本研究の3つのアプローチを使用した場合の、LLMのフィードバック収集の擬似ラベリングのコストを表6に示します。本研究で提案する3つのアプローチの中で、LLMを使用してペアワイズ制約に擬似ラベリングを行う(LLMが20,000組のポイントを分類する必要がある)ことが最もLLM APIコストが高い方法です。PCKMeansとLLMによる修正ではどちらもデータセットごとに同じ回数だけLLMにクエリを行いますが、キーフレーズ修正のコストはデータセットのサイズに応じて線形にスケーリングされ、非常に大規模なコーパスのクラスタリングは実現不可能になります。

表6 異なるLLMを用いたクラスタリングアプローチの擬似ラベリングコストの比較

このコストを正当化するほどの性能向上があるのでしょうか。 LLMの代わりに人間のエキスパートをクラスタリングプロセスのガイドに雇用した場合、同等のコストでより良い結果を得ることができるでしょうか。本研究の実験では、擬似ラベリングのペアワイズ制約が最も高いAPIコストを必要とするため、このアプローチをケーススタディとして取り上げます。擬似オラクルのフィードバックが十分に与えられた場合、図8で示されているように、ペアワイズ制約K-Meansは、ペアワイズまたはマイクロF1を大幅に低下させることなく、マクロF1の向上を実現できます(これはクラスター純度の向上を示唆しています)。

図8 ペアワイズ制約K-MeansのマクロF1の向上の実現

このコストは妥当でしょうか。 OPIEC59kのOpenAI APIにかかる42ドルの費用(表6)に対して、時給11ドル36)であると仮定すると、ラベリングの作業スタッフを約3.8時間雇うことができます。アノテーターは1分間に約3組のペアをラベリングできることが分かっています。したがって、作業スタッフの賃金が42ドルの場合は、GPT-3.5が20,000のラベリングをするのと同じコストで、人間により700以下のラベルが生成されることになります。

図8のフィードバック曲線によると、この価格帯でGPT-3.5は真のオラクルがあるペアワイズ制約よりも格段に効果的であることが分かります。真のオラクルによってラベリングされた少なくとも2,500組のペアが提供されない限り、ペアワイズ制約K-Means法はエンティティの標準化に対して何の価値も提供できません。これは、実験のパフォーマンスを最大化することが目的の場合、LLMでクエリを行う方がラベリングする人を雇うよりも費用対効果が高い可能性があることを示唆しています。

6. むすび

LLMをシンプルな方法で使用すると、さまざまなテキストクラスタリングタスクにおいて、クラスター品質を一貫して向上させることができるという結果が得られました。文書表現を豊かにする手段としてLLMが常に有用であることが判明したことで、本研究でのシンプルな概念実証が、LLMを介する文書拡張に向けたより精緻なアプローチを促がすことにつながるものと考えます。

7. 謝辞

本研究はNEC Laboratories Europeからのフェローシップにより実施されました。Wiern Ben Rim、Saujas Vaduguru、Jill Fain Lehmanのご指導に謝意を表します。また、Chenyang Zhaoには、本研究への貴重なフィードバックを提供していただいたことを感謝いたします。

参考文献

執筆者プロフィール

VISWANATHAN Vijay
Carnegie Mellon University
GASHTEOVSKI Kiril
NEC Laboratories Europe and Center for Advanced Interdisciplinary Research, Ss. Cyril and Methodius Uni. of Skopje
LAWRENCE Carolin
NEC Laboratories Europe
Manager
WU Tongshuang
Carnegie Mellon University
NEUBIG Graham
Carnegie Mellon University