レイテンシ (Latency)

一言定義: API リクエストを投げてから最終応答を受け取るまでの平均秒数。

なぜ重要か

  • ビジネス側: ユーザー体験の直接指標。AI 検索は「秒で答えが返る」ことが SERP に対する優位。10 秒かかると離脱する。
  • 学術側: 単独で trait にはならないが、エージェントタスク(C4)の前提条件。レイテンシが大きいエンジンはマルチホップ・タスクで時間切れ/コスト超過になりやすい。HELM も efficiency 指標として採用。

計算式

Latency = Σ(応答秒数) ÷ (リクエスト数)

p50 / p95 を別途出す(外れ値の影響を見る)。タイムアウト分は別カウント(タイムアウト率も併記)。

具体例

仮想シナリオ:

  • ChatGPT Search (gpt-4o-mini): 平均 3.2 秒 / p95 5.1 秒
  • Gemini 2.5 Flash: 2.8 秒 / p95 4.4 秒
  • Claude Opus 4.6 (WebSearch): 8.5 秒 / p95 14.2 秒
  • AI Overview (SERP scrape): 4.0 秒(SERP 取得時間込み)

Claude Opus の 8.5 秒は「精度トレードオフ」と読む。③ 正確性が高い場合、ユーザーは待つ価値ありと判断するかもしれない。

関連学術文献

  • Liang, P. et al. (2023). Holistic Evaluation of Language Models (HELM). TMLR.(efficiency 指標)
  • Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. KDD 2024.

ai-search プロジェクト内での運用

  • 対象クエリ: 全 600 問
  • 計測: collector スクリプト内でリクエスト開始から最終 chunk 受信までを ms 単位で記録。SERP scrape 系(AI Overview / AI Mode / Copilot)は Bright Data 経由時間を含む
  • 構成概念: C4 Agent Task Completion Fidelity の前提条件。単独構成概念にはしない

参考・引用元

  • ドキュメント: 「Collector 仕様」— GMO ai-search docs/collector-spec.md
  • ドキュメント: 「リサーチ戦略・分析指標12項目」— GMO ai-search docs/research-strategy.md
  • 論文: 「Holistic Evaluation of Language Models (HELM)」— Liang et al. 2023, TMLR

2026-05-30 作成。AI検索評価12指標シリーズ ⑧。

関連ノート