引用重複率 (Citation Overlap)

一言定義: 複数エンジンで共通して引用されているドメインの割合。

なぜ重要か

  • ビジネス側: 重複率が高いドメインは「どのエンジンでも引かれる」勝ち組ドメイン。クライアントが目指すべきベンチマーク群を特定できる。逆に重複率が低いとエンジン間の引用一致度が低く、市場が分断されている。
  • 学術側: エンジン間の「引用合意度」。Yang et al. (2025) のプロバイダ内収束(同一プロバイダ内 0.82-0.99 類似)に対し、プロバイダ間の収束を測る逆方向の指標。

計算式

ペアワイズの場合(エンジン A と B の重複率):

Overlap(A, B) = |Domains_A ∩ Domains_B| ÷ |Domains_A ∪ Domains_B|  (Jaccard)

全体重複率(6 エンジン横断)の場合:

全体重複率 = (2つ以上のエンジンで引用されたユニークドメイン数) ÷ (全ユニークドメイン数)

具体例

仮想シナリオ:

  • ChatGPT Search × Gemini: Jaccard 0.42(4 割のドメインが共通)
  • ChatGPT Search × Copilot: 0.58(Bing 索引共有の影響で高い)
  • Claude × AI Overview: 0.18(参照する空間が大きく違う)

全体重複率が 0.30 なら「ドメイン全体の 3 割は複数エンジンで引かれている定番」「7 割はエンジン固有」。

クライアント施策では、Wikipedia 公式サイト 業界団体サイト のような高重複ドメインに自社情報を載せる、もしくは自社サイトを高重複ドメインに昇格させることが目標になる。

関連学術文献

  • Yang, J. et al. (2025). Citation Convergence within Provider in Generative Search. arXiv preprint.
  • Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. KDD 2024.

ai-search プロジェクト内での運用

  • 対象クエリ: 全 600 問
  • 集計: エンジンペア(6C2 = 15 通り)の Jaccard、全体重複率の両方を出す
  • 構成概念: 単独構成概念には対応せず、C2 Source Trustworthiness Bias と C3 Brand Visibility の派生分析に使う。エンジンのクラスタリング(似た情報源を引く者同士のグループ化)に利用

参考・引用元

  • ドキュメント: 「構成概念 5 つの定義」— GMO ai-search docs/a1-construct-map-2026-05-29.md
  • ドキュメント: 「リサーチ戦略・分析指標12項目」— GMO ai-search docs/research-strategy.md
  • 論文: 「Citation Convergence within Provider」— Yang et al. 2025, arXiv preprint

2026-05-30 作成。AI検索評価12指標シリーズ ⑦。

関連ノート