【翻訳】企業が大規模言語モデルを使用して新しい可能性を引き出す5つの方法(Varshita Sher, Venture Beat, 2023)

https://venturebeat.com/ai/5-ways-enterprise-leaders-can-use-large-language-models-to-unlock-new-possibilities/venturebeat.com

ジェネレーティブAI、特にChatGPTのような大規模言語モデル(LLM)をめぐる話題を見逃すことはまずないでしょう。ここ数ヶ月、ソーシャルメディアからニュース、日常会話まで、いたるところで話題になっており、ジェネレーティブAIがどんなことができるのか、私たちはまだ知り始めたばかりです。

一般的に言えば、ジェネレーティブAIとは、人間が作成したコンテンツに酷似した画像、音楽、テキストなどのコンテンツを作成できる機械学習(ML)技術のカテゴリーを指します。一方、LLMは、膨大なテキストデータで訓練された数十億のパラメーターを持つニューラルネットワークであり、人間のような言語を理解し、処理し、生成することを可能にします。

これらのテクノロジーを組み合わせることで、多様な業界を再構築し、人間と機械の相互作用の質を高める可能性を秘めた、多様なアプリケーションを提供することができます。これらのアプリケーションを探求することで、ビジネスオーナーや企業の意思決定者は、貴重なインスピレーションを得たり、成長を加速させたり、ラピッドプロトタイピングを通じて目に見える形で改善された成果を達成したりすることができます。Gen AIの追加的な利点は、これらのアプリケーションのほとんどが最小限の専門知識を必要とし、さらなるモデルのトレーニングを必要としないことです。

簡単な免責事項:人々はしばしば、Gen AIをChatGPTとだけ連想しがちですが、GoogleのT5、MetaのLlama、TIIのFalcon、AnthropicのClaudeなど、他のプロバイダーからも数多くのモデルが提供されています。この記事で取り上げたアプリケーションのほとんどはOpenAIのChatGPTを使用していますが、特定の計算予算、レイテンシ(モデルが完了を生成するのに必要な速度-小さいモデルほど読み込みが速く、推論のレイテンシが短くなります)、および下流のタスクに合わせて、基礎となるLLMを簡単に適応させたり、切り替えたりすることができます

1. LLMを外部データに接続する

LLMは、翻訳や要約といった多くのタスクにおいて、初期カスタマイズを必要とせず、すぐに素晴らしい能力を発揮します。LLMがこのような一般的なタスクを得意とするのは、基礎となるモデルが大規模かつ一般的なデータセットで訓練されているからです。しかし、この能力は、例えばあなたの会社の年次報告書に関する回答を提供するような、ドメイン固有のタスクにはシームレスに拡張されないかもしれないのです。そこで、収集拡張生成:Retrieval Augmented Generation (RAG)*1が登場します。

RAGは、外部データソースを利用するLLM駆動システムを構築するためのフレームワークです。RAGは、LLMが事前学習中に見ることのなかったデータへのアクセスをLLMに与えるが、それは適切で正確な応答を正しく提供するために必要です。RAGは、ChatGPTのような言語モデルが、自然言語処理NLP)能力と外部知識を組み合わせることで、ドメイン固有の質問に対してより良い回答を提供することを可能にし、不正確な情報や 「幻覚 」を生成する事例を軽減します。それは以下のような方法で行われます:

  • 大規模な文書コレクション、データベース、インターネットなどの外部知識ソースから関連情報を取得します。関連性は、ユーザーの質問に対する意味的類似性(例えばコサイン類似度を用いて測定)に基づいています。
  • 検索された情報をプロンプトの元の質問に追加し(質問に答えるための有益なコンテキストを提供します)、LLMに渡すことで、LLMはより情報に基づいた、コンテキストに関連した、正確な応答を生成することができます。

このアプローチにより、LLMは、質問応答、コンテンツ作成、リアルタイムデータへのアクセスによるインタラクティブな会話など、様々なドメインやアプリケーションにおいて、より汎用的で有用なものとなりますポッドキャストアプリのPoduramaは、同様の技術を活用してAIを搭載したレコメンダー・チャットボットを構築しました。これらのボットは、ユーザーのクエリに基づいて関連する番組を巧みに提案し、ポッドキャストのトランスクリプトから洞察を引き出して推薦を洗練させます。

このアプローチは、危機管理においても価値があります。SaaSのインシデント対応プラットフォームであるPagerDutyは、LLMを使用して、タイトル、重大度、その他の要因などの基本データを使用してインシデントのサマリーを生成し、社内のSlackデータでそれを補強しています。

RAGは複雑に見えるかもしれないが、LangChainライブラリは、RAGを実装し、洗練された質問応答システムを構築するために必要なツールを開発者に提供します。(多くの場合、始めるのに必要なコードは1行だけです)。LangChainは、外部データソースへのアクセスを提供したり、他のアプリケーションの既存のAPIに接続することで、実行時にLLMのパフォーマンスを補強し、強化することができる強力なライブラリです。

オープンソースLLM(Llama 2やBLOOMなど)と組み合わせると、RAGは機密文書を扱うための非常に強力なアーキテクチャとして登場します。特に興味深いのは、LangChainが120を超える統合を誇っており(執筆時点)、構造化データ(SQL)、非構造化コンテンツ(PDF)、コードスニペットYouTubeの動画でさえもシームレスな機能を可能にしていることです。

2. LLMを外部アプリケーションに接続

外部データソースの活用と同様に、LLMは特定のタスクに合わせた外部アプリケーションとの接続を確立することができます。これは、モデルが時折、古い情報のために不正確な結果を出す場合に特に価値があります。例えば、英国の現首相に質問する際、ChatGPTは、彼が2022年後半に退任したにもかかわらず、ボリス・ジョンソンに言及し続けるかもしれません。このような制限が生じるのは、モデルの知識が訓練前の時期に固定されており、リシ・スナックの就任のような訓練後の出来事を包含していないからです。

このような課題に対処するため、LLMはエージェントを通じて外界と統合することで強化することができます。これらのエージェントは、LLMに内在するインターネットアクセスの不在を緩和する役割を果たし、天候API(リアルタイムの天候データ用)やSerpAPI(ウェブ検索用)のようなツールとの連携を可能にします。特筆すべき例はExpediaのチャットボットで、ホテルの検索や予約、宿泊施設に関する問い合わせへの対応、パーソナライズされた旅行の提案などでユーザーをガイドします。

もう一つの魅力的なアプリケーションは、センチメント、攻撃性、言語などの特定の属性を持つツイートの自動ラベリングをリアルタイムで行うことです。マーケティングと広告の観点からは、電子商取引ツールに接続するエージェントは、LLMがユーザーの興味やコンテンツに基づいてプロダクトやパッケージを推薦するのを助けることができます。

3. LLMの連鎖

LLMは、ほとんどのアプリケーションで単独で使われるのが一般的です。しかし最近、複雑なアプリケーションのためにLLMの連鎖が注目を集めています。これは複数のLLMを順番にリンクさせ、より複雑なタスクを実行するものです。各LLMは特定の局面に特化しており、それらが連携して包括的で洗練された出力を生成します。

このアプローチは言語翻訳に応用されており、LLMはテキストをある言語から別の言語に変換するために連続して使用されます。マイクロソフトのような企業は、低リソース言語の場合、翻訳サービスのためにLLMチェイニングを提案しており、希少語のより正確で文脈を考慮した翻訳を可能にしています。

このアプローチは、他のドメインでもいくつかの価値あるユースケースを提供できます。消費者向け企業の場合、LLMチェーニングは、顧客との対話、サービス品質、業務効率を向上させるダイナミックな顧客サポート体験を生み出すことができます。

例えば、最初のLLMは顧客からの問い合わせをトリアージして分類し、より正確な対応をするために専門のLLMに引き継ぐことができます。製造業では、需要予測、在庫管理、サプライヤ選定、リスク評価などに特化したLLMを連鎖させることで、エンドツーエンドのサプライチェーンプロセスを最適化することができます。

4. LLMを使った固有表現の抽出

LLMの登場以前は、固有表現の抽出は、データ収集、ラベリング、複雑なモデル学習を含む、手間のかかるMLアプローチに依存していました。このプロセスは煩雑で、リソースを必要とした。しかし、LLMによって、パラダイムが変化しました。現在では、固有表現抽出は単なるプロンプトに簡素化され、ユーザーはテキストから固有表現を抽出するためにモデルに簡単に問い合わせることができます。さらに興味深いことに、PDFのような構造化されていないテキストから固有表現を抽出する場合、プロンプトの中でスキーマや関心のある属性を定義することもできます。

例えば、金融機関がLLMを利用して、ニュース記事から企業名、ティッカーシンボル、財務数値などの重要な金融固有表現を抽出し、タイムリーで正確な市場分析を可能にします。同様に、広告/マーケティングエージェンシーのデジタル資産管理にも利用できます。LLMを利用した固有表現抽出により、広告スクリプト、出演者、場所、日付を分類し、効率的なコンテンツのインデックス化と資産の再利用を促進します。

5. ReActプロンプトによるLLMの透明性の向上

LLMから直接回答を得ることは間違いなく価値があることですが、ブラックボックス化されたアプローチは不透明であるため、ユーザーの間で躊躇が生じることがよくあります。さらに、複雑な問い合わせに対する不正確な回答に直面した場合、失敗の正確なステップを特定することは困難となります。プロセスの体系的な分解は、デバッグ・プロセスの大きな助けとなるでしょう。これこそが、Reason and Act(ReAct)フレームワークの出番であり、これらの課題に対するソリューションを提供します。

ReActは、LLMに人間のようにソリューションを生成させるために、ステップバイステップの推論に重点を置いています。その目的は、人間のようにタスクを通してモデルを考えさせ、言語を使ってその推論を説明することです。ReActプロンプトを生成することは、人間のアノテーターが自分の考えを自然言語で表現し、それに対応するアクションを実行するという簡単なタスクであるため、このアプローチを簡単に運用することができます。このようなインスタンスはほんの一握りで、モデルは新しいタスクに対してうまく汎化することを学習します。

このフレームワークからヒントを得て、多くのエデュテック企業が、学習者にコースワークや課題をパーソナライズした支援を提供したり、講師にAIを活用した授業プランを提供したりするツールを試験的に導入しています。この目的のために、カーンアカデミーは、数学の問題やコーディングの練習を通して学生を導くように設計されたチャットボット、Khanmigoを開発しました。Khanmigoは、単にリクエストに応じて答えを提供するのではなく、推論プロセスを通じて学生を歩ませることで、思慮深い問題解決を促します。このアプローチは、剽窃を防ぐだけでなく、生徒が主体的に概念を把握する力を与えります。

結論

AIが人間の役割を代替する可能性や、技術的特異点(AIの名付け親であるジェフリー・ヒントンが予言しました)の最終的な達成については議論が続いているかもしれないが、1つだけ確かなことがあります: LLMは間違いなく、様々な領域で様々な作業を迅速化する上で極めて重要な役割を果たすでしょう。LLMは、複雑なタスクを単純化する一方で、効率を高め、創造性を育み、意思決定プロセスを洗練させる力を持っています。

データサイエンティスト、ソフトウェア開発者、プロダクトオーナーなど、さまざまな技術職の専門家にとって、LLMはワークフローを合理化し、洞察を集め、新たな可能性を切り開くための貴重なツールを提供することができます。

ヴァルシタ・シャーはデータサイエンティストであり、熱心なブロガーであり、ポッドキャストキュレーターであり、 ハレオンNLPと生成AIチームを率いています。

*1:訳者注:2023年8月21日時点では定訳が無い模様なので、「収集拡張生成」は仮訳となります。