2025.09.25

AIの評価とは？評価指標や評価方法、その費用について

生成AIが「期待した品質で、期待したコストで、安全に」動いているかを確認する営みがAIの評価です。ChatGPTやClaude 3.5、GPT-4o、Llama 3.1、DeepSeek-V2のような基盤モデルだけでなく、RAG（検索拡張）やワークフロー、監査ログ、UIコピーまでを含めて、品質・安全性・コスト・レイテンシを継続測定します。単発のPoC判定で止めず、継続的評価（Continuous Evaluation）を仕組み化することが、運用の安定とROI最大化の近道です。本稿では、評価指標と方法、実例、そして費用感（万円表記）まで具体的に解説します。

AIの評価とは？評価指標や評価方法は？

① 生成品質（NLG）の客観評価
文章生成の自動指標として、BLEU / ROUGE-L / METEORなどのn-gram系、意味類似度を見るBERTScore、モデルが審査員になるG-Eval / GPTScoreが代表的です。対話系ではMT-Benchや人間のペアワイズ比較がよく使われます。FAQや社内ナレッジ回答のような用途では、初期の目標として正答率80％以上、回答完全性（Coverage）90％、禁則違反率0.5％未満などのしきい値を置き、スプリントごとに更新していきます。

② QA / RAGの忠実性と探索性能
RAGでは、Precision@k / Recall@k / MRR / nDCG@kで検索・再ランキングの性能を可視化し、生成側は引用率や忠実性（Hallucinationの少なさ）を評価します。実務目安として、

Recall@5 ≥ 0.85
引用付き回答率 ≥ 0.95
幻覚率 ≤ 2％
を置き、RetrieverはBM25 + denseのハイブリッド、クロスエンコーダでリランクしてnDCG@10を0.05以上改善する、といった運用が堅実です。

③ 安全性・コンプライアンス
有害表現/偏見/PII露出の抑止テストを自動化します。ASR（Acceptable Safety Rate）99％以上、PII検出率99.5％以上、誤ブロック率2％未満などをKPI化。日本企業では個人情報保護法（APPI）やISO/IEC 27001の証跡要件に合わせ、監査ログの保全・アクセス分離・鍵管理（KMS）を評価計画に織り込みます。

④ 多言語・ドメイン適合
日本語性能はJGLUE / JNLI / JCommonSenseQA、プログラム生成はHumanEval / MBPP、知識整合はTruthfulQA、汎用学習はMMLU / HellaSwagなどを採用。医療・金融・製造などのドメイン固有試験を50〜200問規模で作成し、日次または週次回帰に組み込みます。

⑤ 人手評価（Human Preference）
自動指標で拾い切れない読みやすさ・用語統一・ブランドトーンは、二重盲検とCohen’s κ ≥ 0.7を目安に人が判断します。プロダクトでは解決率（FRR）、CSAT、CVR、継続率を本番KPIとして紐づけ、A/Bで非劣性/優越性を検定します。

⑥ コストと応答時間（SLO）
P50/P95レイテンシと推論単価を同時にモニタリング。たとえばP95 3.0秒以内、1セッション当たり約0.58円などのSLOを置き、キャッシュ・段階型推論・サマリ前置で最適化します。1,000トークンあたりの推論費は0.1〜2.0円程度（モデルやコンテキスト長で大きく変動）。

⑦ 継続的評価の自動化
GitHub Actions / Airflow等で評価パイプラインをCI化し、Langfuse / LangSmith / Helicone / Promptfooで品質・安全・コストのトレースをダッシュボード化。回帰劣化はZスコア（3σ逸脱など）で検知、モデル更新やプロンプト変更の影響を追跡します。

AIの評価を用いた事例

事例A：大手小売のFAQ/RAG高度化

対象データ：商品仕様・返品規定・POS連動の社内文書（約3万ドキュメント、数GB）
検索パイプライン：BM25 + E5-Large（dense）のハイブリッド → ColBERTでリランク → GPT-4oで最終生成
KPI推移：正答率 85％ → 92％（3か月）、引用付き回答率 97％、幻覚率 2％ → 0.6％
効果：問い合わせ対応時間年間約4,800時間削減、CSAT +7.4ポイント、コンタクト削減 28％

事例B：金融コールセンターの安全性強化

PII検出：日本語正規表現 + NER（GiNZA） + ルールベースの三層
結果：ASR 99.4％、誤ブロック率 1.1％まで低減
監査：アクセスログ90日保全、RLS + KMSで部署別に鍵分離、評価証跡（テストID/バージョン/合否）を提出して外部監査に合格

事例C：B2B SaaSの内蔵アシスタント

本番KPI：TTV（Time to Value）14日 → 5日、オンボーディング工数42％削減
評価指標：MT-Bench 7.8 → 8.5、日本語長文要約でBERTScore +0.03、コード生成HumanEval Pass@1 +6ポイント
コスト：1セッション当たり約0.58円、P95 2.4秒、Redisキャッシュヒット率46％

AIの評価開発方法や費用は？

フェーズ1：要件定義（1〜3週間）

内容：ユースケース定義、KPIツリー策定（正答率・幻覚率・ASR・P95・推論単価）、評価仮説とテスト設計
規模感：評価観点30〜80項目、テストケース200〜1,000件
費用目安：80〜250万円

フェーズ2：データ設計・収集（2〜6週間）

ゴール：ゴールデンセット（例：QA 500件、禁則80シナリオ、PII 60パターン）
体制：アノテータ2〜4名で二重ラベリング、Cohen’s κ ≥ 0.7
費用目安：150〜500万円（専門アノテーション単価は1件あたり150〜600円）

フェーズ3：自動評価パイプライン構築（3〜8週間）

実装：Retriever評価（nDCG/MRR）、生成評価（BERTScore/G-Eval）、安全性テストバッテリ、レポーティング
基盤：Langfuse / Promptfoo / LangSmith + Airflow / GitHub Actions + Supabase/Postgres / S3
費用目安：200〜600万円

フェーズ4：運用・回帰・可視化（継続）

運用：週次または隔週で回帰テスト、モデル/プロンプト更新のAB、逸脱検知とエラー分析
月次ランニング例：
評価用推論費：5〜30万円 / 月（3〜30万問/月のバッチを想定）
監視/ログ：2〜15万円 / 月
推論単価の参考：1,000トークンあたり0.1〜2.0円
最適化の型：プロンプト分割・前段要約・RAGキャッシュ・埋め込み再利用・モデル切替（Claude 3.5 / GPT-4o / Llama 3.1-70B等）で30〜70％のコスト削減事例

内製 / 外部支援 / ハイブリッド

内製：評価観点の内面化が進む一方、初期は2〜4名月の確保が必要。
外部支援（例：Moji）：骨格を約3か月で立ち上げ、運用・移管まで伴走。
ハイブリッド：コアは外部で速立て、社内はテスト作成・運用に集中。リードタイム約半減の実績。

見積り例（ミドル規模：RAG + 安全性 + ダッシュボード）

要件定義・設計：150万円
データ整備（約800ケース）：200万円
パイプライン実装（CI/CD・監視含む）：350万円
初期評価/改善サイクル（6週間）：120万円
合計：820万円（税別）
月次運用：25万円〜（評価バッチ・監視・改善ミーティングを含む構成の一例）

AIの評価についてMojiにご相談ください！

Mojiは生成AI評価 / ガードレール / ダッシュボードを一気通貫で支援します。

評価戦略：正答率・幻覚率・ASR・P95・推論単価を結んだKPIツリーを策定
データ設計：日本語に強いゴールデンセットと禁則・PIIテストを内製可能な形で提供
技術基盤：Langfuse / Promptfoo / LangSmithとSupabase（RLS + KMS）で監査対応まで設計
改善運用：週次回帰とABテスト、Optuna等でRetriever/プロンプトを継続改善（nDCG@10 +0.05を定常目標）
セキュリティ：ISO/IEC 27001を意識したアクセス分離・鍵管理・評価証跡の体系化

まずは30分の無料相談から。既存ログ（匿名化で可）とKPIの現状を確認し、2週間以内にスコープ・体制・概算をまとめた評価ロードマップをご提案します。AIの評価を「やってみる」から「勝てる運用」へ。小さく賢く始めて、大きく改善。Mojiが伴走します

Contact

AI活用の相談、まずは無料で

コラムで取り上げたテーマについて、貴社への適用可能性をお気軽にご相談ください。

無料相談する

AIのセキュリティ対策とは？運用・開発方法や費用について

エージェンティックAI（エージェント型）とは？AIエージェントとの違いから開発方法や費用について