正確性スコア (Accuracy)

一言定義: factual クエリにおける正解率(0-1)。

なぜ重要か

  • ビジネス側: AI 検索の信頼性そのもの。これが低いエンジンに自社情報を出されても誤情報が広まるリスク。
  • 学術側: Citation Fidelity(C1)の質側面。Liu et al. (2023) の verifiability スコアに対応。引用があっても本文中の主張を裏付けていなければ意味がない、という発想。

計算式

正確性 = (key_facts を完全に含む回答数) ÷ (factual問数)

ai-search では ground_truth.key_facts を完全に含み、かつ verification_urls ドメインのうち最低 1 件が回答中に引用されたものを「正解」とする。

裏で hallucination rate(key_facts を一切含まない/架空 URL を含む割合)も同時計測。

具体例

仮想シナリオ(factual-static / factoid 68 問 + ymyl 9 問 = 77 問対象):

  • ChatGPT Search: 70 / 77 正答 → 0.91
  • Gemini: 58 / 77 → 0.75
  • AI Overview (SERP): 45 / 77 → 0.58(AI Overview は要約圧縮で fact を落としやすい)

正確性 0.58 のエンジンは「3 回に 1 回以上は事実誤認 or 引用URL未提示」と読む。YMYL(医療・金融・法律)でこれだと致命的。

関連学術文献

  • Liu, N. F., Zhang, T., & Liang, P. (2023). Evaluating Verifiability in Generative Search Engines. Findings of EMNLP 2023.
  • Messick, S. (1995). Validity of psychological assessment. American Psychologist, 50(9).
  • Liang, P. et al. (2023). Holistic Evaluation of Language Models (HELM). TMLR.

ai-search プロジェクト内での運用

  • 対象クエリ: factual-static の factoid 68 + ymyl 9 = 77 問
  • 採点: F1 スコアで部分一致を評価。f1-scoring-test-cases-2026-05-29.md に手順
  • 構成概念: C1 Citation Fidelity の主指標

参考・引用元

  • ドキュメント: 「F1 採点テストケース」— GMO ai-search docs/f1-scoring-test-cases-2026-05-29.md
  • ドキュメント: 「構成概念 5 つの定義」— GMO ai-search docs/a1-construct-map-2026-05-29.md
  • 論文: 「Evaluating Verifiability in Generative Search Engines」— Liu, Zhang, Liang, Findings of EMNLP 2023
  • 論文: 「Holistic Evaluation of Language Models (HELM)」— Liang et al. 2023, TMLR

2026-05-30 作成。AI検索評価12指標シリーズ ③。

関連ノート