今回は AI エージェントの基本的な考え方について整理します。

1. AI エージェントとは

現在、様々なところで AI エージェントという言葉が使われています。例えば、 Microsoft は AI エージェントを次のように定義しています。

1-1. AI エージェントの定義

AI エージェントは、生成 AI モデルを利用して入力を解釈し、問題を推論し、適切な行動を決定する柔軟なソフトウェア プログラムです。

固定的なルールに依存する従来のアプリケーションとは異なり、エージェントはリアルタイムのコンテキストに基づいてワークフローを動的に調整します。

また、次に示す 5 つのコアコンポーネントからなり、 3 つのデプロイメントタイプを有すると定義しています。

1-2. 5 つのコア コンポーネント

1-2-1. 生成 AI モデル

これは、 AI エージェントの推論エンジンとして機能する部分です。 AI エージェントの定義内容やユーザから入力される指示を処理し、必要に応じてツール呼び出しや検索によって情報を収集し、統合した結果を出力します。

1-2-2. 指示(Instructions)

これは AI エージェントのスコープ、境界、行動ガイドラインを定義する部分です。スコープを限定することで、思考範囲の拡大を防ぎ、ビジネスルールに準拠するように AI エージェントが振る舞う動線を確保します。

1-2-3. 検索(Retrieval)

生成 AI モデルが持っていない情報を用いて、正確な応答に必要な基本的なデータとコンテキストを提供するための機構です。ハルシネーションを起こさないようにするとともに、情報の関連性を伝えることで、より適切な回答を生成 AI モデルが作成できるようになります。

1-2-4. アクション(Actions)

AI エージェントが何らかのアクションを実行するための関数、API、システムです。アクションとのインターフェすは、これまでシステム連携で利用されてきた Restful API に加え、最近では MCP (Model Context Protocol) や A2A といった AI エージェント専用のインターフェス定義がなされています。 アクションを実行することで、エージェントは受動的な情報取得から能動的なビジネス プロセス参加者になることができます。

1-2-5. メモリ(Memory)

過去の会話履歴や状態を保存することで、マルチターン会話や長時間実行タスクのサポートすることが可能になります。これにより、思考を重ねることで、より深い洞察を得ることが可能になります。

Infography.png

1-3. 3 つのデプロイメント タイプ

  1. 支援エージェント(Assistive Agents)
  • 特定の明確に定義されたタスクをオンデマンドで実行
  • 例:顧客データ分析、サポート質問への回答
  1. 自律エージェント(Autonomous Agents)
  • 人間の介入なしに独立して動作・意思決定・行動
  • 例:ネットワークログ監視、インフラ管理
  1. エージェント ユーザー(Agent Users)
  • 人間のユーザーと同様の特性を持つ
  • 例:Teams への参加、ドキュメント アクセス、ミーティング参加

1-4. RAG との違い

標準的な RAG(Retrieval-Augmented Generation)アプリケーションは決定的な検索プロセスを使用するのに対し、 AI エージェントは生成モデルを使用して各ステップで使用する知識とツールを動的に決定します。すなわち、 RAG アプリは処理の流れが静的 (決まっている) で AI エージェントは処理の流れが動的 (状況によって変化する) という違いがあります。この適応的なアプローチにより、複数ステップの推論と複雑な問題解決が可能になります。

2. AI エージェント開発フレームワーク

このような AI エージェントを開発するフレームワークが登場しています。主要なところでは、 LangChain や Microsoft Agent Framework などが存在し、次のような違いがあります

ライブラリ名 概要
LangChain オープンソースLLMアプリ開発フレームワーク。豊富なチェーン&ツール統合機能、MITライセンスで自由利用
Microsoft Agent Framework (MAF) Microsoft の新エージェント基盤。 Semantic Kernel + AutoGen 統合、.NET/Python対応で企業向け連携と耐久性
AutoGPT GPT-4の自律エージェント実験プロジェクト。目標を分割・道具利用可能だが安定性課題、MITライセンス
MetaGPT 複数エージェントでソフト開発を自動化。役割分担でPRD~コード生成、MITライセンス、高スターだが用途特化
CrewAI 高速・柔軟なマルチエージェントフレームワーク。LangChain非依存で低レベル制御可、企業機能あり、MITライセンス

3. Microsoft Agent Framework について

Microsoft は AI エージェントを開発するフレームワークとして、 Agent Framework をリリースしました。現在、 .NET と Python 向けの OSS ライブラリとして提供されており、以下の特徴を持ちます。

3-1. 位置付け

  • .NET アプリ向けの本番対応・OSS フレームワーク。Semantic Kernel と MS Research の AutoGen の強みを統合し、より高レベルのオーケストレーションを提供。
  • Microsoft.Extensions.AI.Abstractions 上に構築され、OpenAI / Azure OpenAI / Azure AI Foundry など複数推論サービスに対応。

3-2. 主な特徴

  • マルチエージェント・オーケストレーション: 直列/並列/グループチャット/ハンドオフ/“magentic”(リードエージェントが他を指揮)などのパターンを標準サポート。
  • クラウド/プロバイダー非依存: オンプレ・コンテナ・マルチクラウドで動作、プラグイン/コネクタモデルでサービスを差し替え可能。
  • エンタープライズ対応: OpenTelemetry による観測、Microsoft Entra 連携によるセキュリティ、プロンプトインジェクション防御やタスク順守モニタリングなどの Responsible AI 機能。
  • 標準互換性: Agent-to-Agent (A2A) プロトコルや Model Context Protocol (MCP) と連携可能。
  • エージェントタイプ: AI エージェントから派生した各種エージェント(ChatClientAgent など)を提供し、任意の IChatClient 実装で簡単にエージェント化可能

3-3. ワークフロー機能

  • “Agent Framework Workflows” により、エージェントを組み込んだ型安全なワークフローを設計・実行可能。
  • グラフベースの柔軟な制御フロー、チェックポイント、外部 API 連携、人間参加(human-in-the-loop)をサポート。
  • ワークフロー自体をエージェントとしてラップし、共通のエージェント API で扱える。

3-4. 典型的な利用イメージ

  • LLM + ツール呼び出しを行うエージェントを複数組み合わせ、業務プロセスを自動化。
  • 既存の .NET アプリに組み込み、観測・セキュリティ・ガバナンスを備えたエージェント基盤を提供。

4. 参考サイト