引用一貫性 (Citation Consistency)

一言定義: 前週と今週で同じクエリに対し引用されたドメインの Jaccard 類似度。

なぜ重要か

  • ビジネス側: AI 検索の「ランキング揺らぎ」を捉える指標。一貫性が高いエンジンは施策の効果が読みやすい(安定 SERP に近い)。低いエンジンは打ち手の結果検証が難しい(ノイズが大きい)。
  • 学術側: test-retest 信頼性 (Cohen 1988) の応用。Krippendorff's α も併用可能。エンジンの retrieval policy が trait なのか state なのかを判別する材料になる。

計算式

一貫性 = |Domains_週N ∩ Domains_週N+1| ÷ |Domains_週N ∪ Domains_週N+1|

クエリごとに計算して平均化。エンジン × クエリ単位の値も後で見る。

時系列に拡張する場合は連続週の Jaccard 系列を作って variance を見る。

具体例

仮想シナリオ(factual-static の同じ 77 問を 2 週連続で):

  • ChatGPT Search: 0.78(高安定)
  • Gemini: 0.65
  • AI Overview: 0.42(毎週入れ替わりが激しい)
  • Copilot: 0.71

AI Overview の 0.42 は「先週引かれていたドメインの 6 割は今週には引かれない」。クライアント施策の効果検証では、AI Overview だけ 4 週連続データを取って分散補正する必要がある。

関連学術文献

  • Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences. Lawrence Erlbaum.
  • DoD framework v1.0 (GMO 内部) E-1 Reliability 観点。

ai-search プロジェクト内での運用

  • 対象クエリ: 毎日 (Daily) 縦断観測の対象クエリ全件。週次でロールアップ
  • 集計: エンジン × intent カテゴリ × 週で Jaccard を算出。trend chart で揺らぎ可視化
  • 構成概念: C2 Source Trustworthiness Bias の 時間安定性側面。state vs trait の判別にも使う

参考・引用元

  • ドキュメント: 「研究グレード AI検索クエリセット DoD フレームワーク」— GMO ai-search docs/dod-framework-v1-2026-05-28.md(E-1 Reliability)
  • ドキュメント: 「構成概念 5 つの定義」— GMO ai-search docs/a1-construct-map-2026-05-29.md
  • 書名: 「Statistical Power Analysis for the Behavioral Sciences (2nd ed.)」— Jacob Cohen(Lawrence Erlbaum, 1988)

2026-05-30 作成。AI検索評価12指標シリーズ ⑩。

関連ノート