AI検索評価 ③ — 正確性スコア（Accuracy Score）

正確性スコアとは、事実を問うクエリに対してAI検索エンジンが正しく答えられた割合を示す指標であり、0から1の範囲を取る。ground_truth（＝正解データ）のkey_facts（＝正解に必須の事実要素）を完全に含み、かつ検証可能なソースを引用して初めて「正解」と判定される。

重要な理由

ビジネス面では、正確性が低いエンジンは自社に関する誤情報の拡散リスクを生む。学術面では、Liu et al.（2023）の検証可能性スコアおよびC1「引用忠実性（Citation Fidelity）」という構成概念に対応する。本文の主張を裏づけない引用は意味をなさない、という原則に基づいている。

計算式

正確性は、key_factsを完全に含む回答数を factual 問数で割って算出する。正解の条件は、全key_factsを含み、かつverification_url（＝検証用URL）のドメインを1件以上引用していることだ。同時に、key_factsを含まない、または架空のURLを含む回答の割合をハルシネーション率（＝AIが事実に基づかない内容を生成する現象の発生率）として並行して測定する。

計算例（77問スコープ）

77問を対象にした計算例では、ChatGPT Searchが70/77正解で0.91となった。Geminiは58/77で0.75、AI Overview（SERP＝検索結果ページ）は45/77で0.58にとどまり、3問に1問以上が事実誤りまたは引用なしという結果だった。YMYL（Your Money or Your Life＝医療・金融・法律など生活や財産に影響する領域）では、0.58という水準は致命的とみなされる。

プロジェクトでの使用方法

対象はfactual-staticとfactoidの68問にYMYLの9問を加えた77問である。部分一致はF1スコア（＝適合率と再現率の調和平均で評価する指標）で採点し、手順はf1-scoring-test-cases-2026-05-29.mdに定めている。この指標はC1「引用忠実性」構成概念の主要指標として機能する。

正確性スコアは事実的信頼性を数値化する指標であり、0.75を下回ると誤情報リスクが業務上無視できないレベルになる。

AI検索評価 ③ — ​正確性スコア（Accuracy Score）

重要な​理由

計算式

計算例​（77問スコープ）

プロジェクトでの​使用方​法

関連ノート

AI検索評価 ③ — 正確性スコア（Accuracy Score）

重要な理由

計算例（77問スコープ）

プロジェクトでの使用方法