【翻訳】2025年、AIがSaaSを駆逐し始める(Ori Ziv, Medium)

medium.com

SaaS(Software-as-a-Service)の世界は激変の危機に瀕しています。人工知能、特にLLM(大規模言語モデル)の急速な進歩に伴い、AIエージェントは、SaaSプラットフォームの運用方法、価値の提供方法、ユーザーとの対話方法を再定義する準備が整った変革ツールとして台頭してきています。2025年までに、AIエージェントは既存のシステムを強化するだけでなく、まったく新しいビジネスモデルの創造を促進することが期待できます。

最近、バーティカルAIエージェントのコンセプトが大きな支持を得ており、従来のSaaSよりもさらに大きな変革をもたらすパラダイムシフトの可能性を示唆しています。YCによるLightconeポッドキャストで強調されたように、特定の業界やユースケースに深く統合するように設計されたこれらの特化型エージェントは、まったく新しいカテゴリーのビジネスチャンスを生み出す態勢を整えています。この分野では数百億ドル規模の企業が出現するとの予測もあり、Vertical AI AgentはSaaSの規模を桁違いに拡大する可能性があります。

MicrosoftのCEOであるSatya Nadella氏は、AIエージェントがSaaSの展望をどのように再構築するかについて先見的な視点を提供し、ビジネスアプリケーションの発想と利用方法の根本的な転換を予測しています。最近のB2Gポッドキャスト・インタビューで彼は、SaaSの伝統的な構造(基本的にビジネス・ロジックに支配されたCRUD(作成、読み取り、更新、削除)データベース)は、エージェント型AIの時代に崩壊する可能性があると示唆しました。

このブログ記事では、AIエージェントの世界に飛び込み、探ってみたいと思います:

  • AIエージェントとは何か?
  • シングルエージェントシステムからマルチエージェントAIシステムへの進化。
  • AIエージェントの設計と展開を可能にするプラットフォーム
  • ヒューマン・エージェント・インターフェースはどのように進化するのか?
  • なぜAIエージェントはSaaS市場を破壊する可能性があるのか?

AIエージェントとは?

AIエージェントは、人工知能を搭載したソフトウェアプログラムで、通常は基礎モデルに基づいており、特定のタスクを自律的に実行する目的で設計されています。これらのエージェントは、コンテキストを認識し、目標指向で、環境やユーザーとの相互作用から学習することができます。

AIエージェントはバーチャルアシスタントと同じですが、より専門的で有能です。反復作業を自動化し、複雑なデータを分析して意思決定を行い、定義された目標を達成するためにユーザーやシステムと対話することができます。自律型になるためには、関数呼び出し、メモリ、インターネット検索、外部システムでのCRUD操作などのツールや機能が装備されるでしょう。

例えば、SaaS CRMプラットフォームにおけるAIエージェントは、顧客とのやり取りを独自に管理し、フォローアップのスケジュールを立て、営業チームに予測分析を提供することができます。

AIエージェントの構造

AIエージェントは、GPT4、Claude、Geminiなどの大規模言語モデル(LLM)、またはエージェントが設計された特定のタスクに最も適した小規模で低コストの言語モデル(SLM)のいずれかです。システムプロンプトは、エージェントの目的とその出力の形式を定義するガイドフレームワークとして機能します。エージェントをコンテキストに関連させるために、エージェントは外部の知識ベースやデータソースに接続され、正確でドメイン固有の情報を基に応答します。この統合のための一般的なアプローチは、外部データの検索と生成機能を組み合わせたRAG(Retrieval-Augmented Generation)パターンです。基礎的な理解を超えて、エージェントはツールキット(自律的にアクションを実行したり、ワークフローをトリガーしたり、目的に沿ったタスクを解決したりすることを可能にする専門的な能力とスキル)を備えています。これらすべてのコンポーネントを調整するのがオーケストレータであり、エージェントの機能を結びつける接着剤です。オーケストレータは、ユーザからの入力を処理し、内部オペレーションを管理し、まとまった結果をユーザに直接、またはマルチエージェント相互作用を含むシステムにおいて他のエージェントに提供します。最後に、ユーザインタラクションが必要な場合、オプションのユーザエクスペリエンスがエンドユーザにエージェント機能を公開します。マルチエージェントシステムでは、いくつかのエージェントはシステム内の他のエージェントと内部通信を行い、他のエージェントはエンドユーザと通信を行います。

エージェント解剖図(出典:Microsoft Ignite 2024)*1

シングルエージェントからマルチエージェントAIシステムへ

2025年には、シングルエージェントのAIソリューションからマルチエージェントシステムへの大きな移行が見られるでしょう。

  • シングル・エージェント・システム: スマートチャットボットのような、タスクに特化したAIモデルです。孤立したシナリオでは効果的ですが、複雑に相互接続されたワークフローを処理するには限界があります。シングルエージェントシステムは通常、人間がループ内にいる必要があり、継続的なフィードバックを提供します。

  • マルチエージェントシステム: 多様な専門知識を必要とする問題解決や目標達成のために、AIエージェントのネットワークが協調します。与えられたタスクを解決するために、内部で互いにコミュニケーションし、互いに批判し、互いの結果を改善するチームコラボレーションを考えてみてください。

例えば、プロジェクト管理のSaaSプラットフォームでは、あるAIエージェントはタスクの優先順位をつけ、別のAIエージェントはプロジェクトのリスクを予測し、3番目のAIエージェントはリソースの割り当てを行うかもしれません。このようなシステムは、各エージェントが独自の専門性を発揮する人間のチームを模したものです。

マルチエージェントシステムが特に魅力的なのは、新しい課題に動的に適応し、責任を委譲し、さらには結果を最適化するために互いに交渉することができるからです。

マルチエージェントシステムは、ループ内の人間を最小限に減らし、人間の監督や承認を求め、必要なときや設計されたときだけ行動を起こすことを目指しています。

AIエージェントの構築と設計のためのプラットフォームとツール

AIエージェントの普及は、その設計、トレーニング、デプロイメントを利用しやすくするプラットフォームによって促進されています。これらのプラットフォームは通常、以下のものを提供します:

  1. 事前構築されたAIモデル: すぐに使える事前学習済みモデルで、クラウド上ですぐに展開できます。
  2. カスタマイズ性: 独自のビジネスニーズに合わせてAIエージェントを微調整するためのツール。
  3. 評価:AIエージェントの品質と安全性、および環境内でのコミュニケーションを評価するためのツール。
  4. 統合: AIエージェントを既存のSaaSプラットフォームにシームレスに統合するためのAPIとコネクタ。
  5. マルチエージェントフレームワーク: マルチエージェントコラボレーション用のテンプレートやプロトコルを提供する高度なプラットフォーム。これらのフレームワークには、システム内のマルチエージェントの挙動をシミュレートする機能が含まれています。

注目すべき新たなプラットフォームやツールには、次のようなものがあります:

  • セマンティックカーネル: AIエージェントを簡単に構築し、最新のAIモデルをC#Python、またはJavaコードベースに統合できる、マイクロソフトによる軽量のオープンソース開発キット。エンタープライズグレードのソリューションを迅速に提供できる効率的なミドルウェアとして機能します。

  • LangChain : セマンティック・カーネルと同様に、LangChainは言語モデルを利用したアプリケーション構築のためのOSSツールキットで、会話エージェントの設計によく使用されます。プログラミング用にJavascriptPythonSDKを提供しています。

  • OpenAIのアシスタントAPI : GPT-4o、o1、そしてそれ以降で、開発者はますます洗練されたエージェントを構築し、アプリケーションやChatGPTプラットフォームにデプロイすることができます。

  • OpenAIのSwarm : Open AIチームによって開発された、研究とシミュレーションを目的とした、人間工学に基づいた軽量なマルチエージェントオーケストレーションを探求する教育用フレームワークです。

  • AutoGenMicrosoft Researchによるマルチエージェント会話フレームワークで、LLMワークフローの構築を簡素化し、様々なドメインにわたる多様なアプリケーションを可能にします。パフォーマンスを向上させ、コストを削減するために最適化されたLLM推論APIを提供し、効率的で汎用性の高いAI駆動型ソリューションを作成するための強力なツールとなっています。AutoGenはまた、マルチエージェントの構築をノーコード/ローコードで体験できる「- AutoGen Studio」も提供しています。

  • Vercel's AI SDK : TypescriptとNode.JSを使用してAIを搭載した製品を構築するために必要なツールを提供する、Vercelによる無料のオープンソースライブラリで、Next.JSウェブアプリに簡単に統合できます。

  • AutoGPTCLIによる自律型マルチエージェントシステム開発のためのオープンソースフレームワーク

  • TinyTroupeマイクロソフトによる興味深いOSSプロジェクトで、想像力強化やビジネス洞察のための言語モデルによるマルチエージェントペルソナシミュレーションを提供します。

  • ノーコード/ローコードSaaS-AIビルダー: 技術者でないユーザーでもAIエージェントを構築、デプロイ、設定できる専門ツール。

  • Azure AI Foundryは、さまざまなモデルとサービスを使用してAI駆動型アプリケーションを構築、デプロイ、管理するための堅牢なプラットフォームで、Azureでエージェントを構築およびデプロイするための新しいアシスタントビルダー(現在パブリックプレビュー中)を提供しています。

  • Microsoft Copilot Studioでは、ローコードツールとジェネレーティブAIを使用して、Microsoft 365やその他のチャネル向けのAIアシスタントを作成およびカスタマイズできます。

これらのプラットフォームはAI開発を民主化し、あらゆる規模の企業がAIエージェントの力を活用できるようにします。

ヒューマン・エージェント・インターフェースはどのように進化するのか?

AIエージェントが成功するためには、ワークフローにシームレスに統合され、ユーザーフレンドリーでなければなりません。そこで登場するのが、ヒューマン・エージェント・インターフェース(HAI)です。

会話型インターフェース

会話型AIは、ユーザーとSaaSプラットフォームとの関わり方を再定義するでしょう。メニューやフォームを手動でナビゲートする代わりに、ユーザーは 「先月の売上レポートを作成してください 」や 「プロジェクトXのステータスは?」などのリクエストを入力したり話したりするだけです。AIエージェントは、クエリを理解し、意図を解釈し、コマンドを実行します。これにより摩擦が減り、ユーザーはより早く、より少ない認知的労力で物事を成し遂げることができます。さらに、これらの会話型エージェントはより文脈を認識するようになり、複数のインタラクションにわたって継続的な対話を維持することで、ユーザー・エクスペリエンスを向上させることができます。

プロアクティブエージェント

AIエージェントは、入力を待つのではなく、ニーズを予測し、最適化を提案したり、チームに異常を警告するなどのアクションを開始します。

パーソナライズされたインターフェース

AIエージェントは、ユーザーの行動、嗜好、ニーズを学習することで、SaaSのインターフェースを個々のユーザーに合わせます。画一的なアプローチではなく、プラットフォームは各ユーザーに動的に適応します。例えば、プロジェクト管理用のSaaSプラットフォームでは、チームメンバーの役割に応じて異なるダッシュボードレイアウトを表示することができます。時間の経過とともに、AIは各ユーザーのパターンに合ったカスタム・ショートカット、ツール、ワークフローを提案し、インターフェイスをパーソナルで直感的なものにします。

拡張現実(AR)

拡張現実は、特にデザイン、ビジュアライゼーション、コラボレーションに焦点を当てたツールのSaaSインターフェイスを大幅に強化する可能性があります。AIエージェントがユーザーの物理的空間に3Dモデルやチャートをオーバーレイ表示するデータ可視化用のSaaSアプリケーションの使用や、チームコラボレーションのための仮想ワークスペースの投影にARを使用することを想像してみてください。例えば、建築設計のためのSaaSアプリケーションでは、ユーザーはリアルタイムで建物の設計図を表示し、操作することができます。ARとAIを組み合わせることで、ユーザが複雑なデータや設計をより意味のある具体的な方法で操作できる没入型体験を実現できます。よく設計されたHAIは、高度なAI能力とエンドユーザーのアクセシビリティのギャップを埋め、AIエージェントが人間の専門知識を置き換えるのではなく、補完することを保証します。

分散化されたインターフェース

ユーザーが単一のアプリの中だけで対話するのではなく、AIエージェントが異なるエコシステム間の橋渡しになる可能性があります。例えば、AIエージェントは、ユーザーが専用アプリを開くことなく、メッセージングプラットフォームや仮想ワークスペースからSaaS機能にシームレスにアクセスできるようにするかもしれません。Microsoft Teamsで会話をしているときに、AIエージェントがプラットフォームから離れることなく、顧客データの取得やレポートの作成を支援することを想像してみてください。このような分散化により、ユーザーはタスクを完了するために単一のプラットフォームやアプリに縛られることがなくなり、アクセシビリティが向上する可能性があります。

UXレイアウトの変化

会話型インターフェースの統合に対応するため、SaaSプラットフォームのユーザーエクスペリエンスとレイアウトは大きく変化するでしょう。従来のUI要素は、会話型キャンバスにシームレスに組み込まれた、より流動的でパーソナライズされたデザインへと移行するでしょう。このシフトはインタラクションを合理化し、静的なメニューやフォームへの依存を減らし、個々のユーザーのニーズに合わせたよりダイナミックで直感的なエクスペリエンスを生み出します。

ヒューマン・エージェント・コミュニケーション

ヒューマン・エージェント・インターフェースを設計する場合、効果的でシームレスなインタラクションを確保するためにいくつかの要素を考慮する必要があります。エージェントのゴールとユーザーの好みは明確に定義され、尊重されるべきであり、ユーザーが改善のためのフィードバックを提供できる仕組みが必要です。ユーザの理解を深めるために、インタフェースはユーザがエージェントの行動を確認できるようにし、一貫した動作を伝え、コンテキストに基づいて詳細レベルを調整する必要があります。信頼と継続性を構築するために、過去のやりとりがエージェントのコミュニケーションに反映されるべきです。コミュニケーションは、エージェントの現在の行動、将来の意図、および目標が達成されたかどうかや副作用を含む結果に対処する必要があります。このようなインタフェースを設計するには、ユーザーへの情報伝達とユーザーからの指示の解釈の両方の課題に取り組み、整合性と肯定的なユーザー体験を確保する必要があります。

出典:ヒューマン・エージェント・コミュニケーションにおける課題、マイクロソフトリサーチ

後の混乱

2025年、AIエージェントはSaaSに大きな破壊をもたらす可能性があります:

  1. 運用の効率化: 運用の効率化:反復的なタスクを自動化し、リアルタイムの洞察を提供することで、人間のエージェントは戦略的な作業に専念できるようになります。
  2. 規模に応じたパーソナライゼーション: SaaSプラットフォームは、AIエージェントの学習・適応能力により、すべてのユーザーに超パーソナライズされた体験を提供します。
  3. 新しいビジネスモデル: サービスとしてのAIエージェント(AIaaS)が登場し、企業は特定のタスクに特化したエージェントをリースできるようになります。
  4. 競争上の差別化: マルチエージェントシステムと高度なHAIを統合する企業は、SaaS市場で大きな優位性を獲得するでしょう。

結論

AIエージェントは単なるツールではなく、協働者であり、増幅器であり、破壊者であり、私たちの働き方やイノベーションにおける「スーパーエージェント」の新時代を体現しています。2025年に向けて、この変革を受け入れる企業は成功し、従来のSaaSパラダイム固執する企業は生き残りに苦戦するかもしれません。問題は、AIエージェントやマルチエージェントAIシステムがSaaSを破壊するかどうかではなく、組織がこの革命にどれだけ備えるかです。

*1:訳注:この図は、AIシステムやプラットフォームの構造を表していると考えられます。それぞれの要素がどのように連携しているかを示しているようです。以下に主要な構成要素の意味を説明します:

  1. Foundation Model:
    • AIシステムの基盤となるモデルです。大規模な言語モデルや基礎的なAI技術が含まれています。すべての機能は、この基盤モデルの上に構築されています。
  2. Autonomy:
    • システムが自己完結的にタスクを実行するための機能を指します。モデルが入力データに基づいて自律的に意思決定を行い、タスクを完了する能力を提供します。
  3. Skills and Capabilities:
    • 特定のタスクやアプリケーションに必要なスキルや機能を表します。これには、例えば、自然言語処理、データ解析、画像認識といった個別の能力が含まれます。
  4. Knowledge Base:
    • システムの情報源やデータベースを指します。この知識基盤は、モデルがより正確で文脈に沿った情報を提供するために使用されます。
  5. Orchestrator:
    • システム全体を調整する役割を果たします。各コンポーネント(Autonomy、Skills、Knowledge Base)を連携させ、ユーザーからの入力に応じて適切な処理を行う指令塔のような役割です。
  6. User Experience (Optional):
    • ユーザーとのインターフェースや、システムがユーザーにどのように応答するかをデザインする部分を指します。必須ではないとされていますが、ユーザーフレンドリーな体験を提供するための重要な要素です。

全体の意味

この図は、AIシステムの全体構造を示しており、基礎的なモデル(Foundation Model)の上に各種機能や知識がレイヤーとして積み上げられ、最終的にユーザー体験に繋がる仕組みを表しています。これはAIシステムがどのように複数の要素を組み合わせて動作するかを説明するためのフレームワークと考えられます。