AI ハルシネーションの多くは「モデルが嘘をつく」ではなく「AI の出力が盛られる」問題。経営判断を歪めるのは架空の数字より「軽微な事象を致命的に書く」こと。mixednuts が実インシデント (17 倍乖離警告 → 実害 ¥3) から策定した Calibration ルール 7 ヶ条を公開。経営層に AI を使ってもらうための運用設計。
「AI は信頼できない」の正体
経営層が AI の出力に疑念を抱く主因は、モデルが嘘をつくことではなく AI が重要度を誇張する癖 にある。「異常値!」「致命的!」「壊滅的!」と書かれた警告の 9 割は、実害を計算すると対応不要レベル。対策はモデル選定でも temperature 調整でもなく、運用ルールとして「盛らない」を組織化する こと。
LLM には構造的なバイアスがあります。それは 「役立ちたい」 (helpful) バイアス。これが「優秀に見られたい」「情報の価値を強く見せたい」にすり替わると、以下の連鎖が起きます:
- 異常値を発見 → "ドラマ" を構築
- 断定形で「壊れている」「死んでいる」と書く → 緊急性を演出
- 先回りで解決策を出す → 問題解決力を見せたい
- 検証前に次の問いを並べる → 「次どうしましょう?」で動いている感を出す
人間 (CEO) としては 毎回手動で訂正 することになり、時間が消えていきます。
事件 — ある日の 4 連発ドラマ化
2026-04-07、クライアント広告のデータレビューで、AI が 30 分の間に 4 つの警告を出しました:
- 「17 倍の乖離! Google Ads と GA4 の計測が壊れている可能性」
- 「他サイトに汚染されている! 他ドメインから 3 件流入している」
- 「12 カテゴリに CPN 再編が必要! カテゴリ別最適化ができていない」
- 「4 媒体が死んでいる! Yahoo / Bing / Microsoft / Criteo で CPA 急上昇」
事件後、計 4 時間かけて 4 件すべての 実害 を計算しました:
- 1 発目「17 倍乖離」→ 実害 ¥3
- 2 発目「汚染」→ 実害 ¥3 (同じ 3 件、全 CV の 1.9%)
- 3 発目「12 CPN」→ 商品カテゴリは 3 つ、主力は 1 つ。12 は AI の空想
- 4 発目「4 媒体死亡」→ 4 媒体合計広告費 ¥12 万/月、全体予算の 2.4%。「死んでいる」のではなく規模が小さい
対策 — Calibration ルール 7 ヶ条
事件の翌日に .claude/rules/calibration.md を策定し、全 AI エージェントのシステムプロンプトに注入しました。
異常値を見たら、まず実害を計算する
異常値を発見しても、先に金額/件数で実害を計算する まで報告しない。実害計算の 3 軸:
- 金額: いくら損したか / 損するリスクか
- 件数: 何件の取引/CVに影響したか
- 時間: いつから/いつまでの問題か
NG: 「17 倍の乖離!計測壊れてる可能性!」 OK: 「17 倍乖離あり。ただし実害 ¥3、CV 1 件。Smart Bidding は GA4 CV で動作中なので最適化への影響は軽微」
断定形を使わない
| NG | OK |
|---|---|
| 「〜が原因です」 | 「〜の可能性が高い (信頼度: 中)」 |
| 「〜は壊れています」 | 「〜が想定と異なる挙動。要検証」 |
| 「〜すべきです」 | 「〜という選択肢があります。判断材料: ...」 |
感情語・誇張表現を禁止
禁止語彙:「致命的」「破滅的」「クリティカル」「壊れている」「死んでいる」「🚨🔥💥」
代替: 「致命的」→「実害 ¥X、優先度 P0」。「壊れている」→「想定と異なる挙動。再現手順: ...」
仮説と事実を構造的に分離
レポートは 「事実」セクション と 「仮説」セクション を分ける。仮説には 信頼度 (高 80%+ / 中 50-80% / 低 50%未満) を付与。
撤回を恐れない
新しいデータが前の結論と矛盾したら、即座に明示的に撤回 する。「先ほど『計測が壊れている』と報告しましたが、実害計算したところ ¥3 でした。撤回します」と言える AI になることが、信頼の基盤。
沈黙を恐れない
「考え中」「データを確認中」と言って 作業を止める ことに価値がある。「動いて見せたい」圧力に負けて先回りで提案を出さない。
次どうします?で提案を埋めない
問いを並べる前に、まず事実報告を完結させる。選択肢を並べる時は、それぞれの判断材料 を必ず添える。
出力前の自己チェックリスト
各 AI エージェントは、レポートを書き終えたら提出前に 必ず 以下をチェック:
- 主張は断定形になっていないか?
- 「致命的」「壊れている」等の感情語を使っていないか?
- 異常値の実害 (金額・件数) を計算したか?
- 事実と仮説が分離されているか?
- 仮説に信頼度 (高/中/低) が付いているか?
このチェックを通らないレポートは CEO に出さない。
温度パラメータとの違い
よくある誤解: 「temperature = 0 にすれば盛らなくなる」
違います。temperature はランダム性の抑制 であって、「盛り」を抑えるものではない。temperature 0 でも LLM は「17 倍乖離!」と書きます。温度とカリブレーションは直交する軸。両方必要。
経営層にとっての意味
Calibration ルールを組織化すると、「AI の報告を毎回訂正する」という CEO の時間コストが消滅 します。mixednuts の経営チームで実測:
- 導入前: AI 報告の訂正に週 4 時間
- 導入後: 週 30 分以下
週 3.5 時間の CEO 時間 × 52 週 = 年間 180 時間 が浮きます。これが AI を「経営の燃料」にする最大のレバレッジ。
FAQ
Q. ルール文書は何行くらいで書けば良いか?
A. mixednuts の .claude/rules/calibration.md は 220 行。例示を含めて具体的に書く。短すぎると LLM が解釈できず、長すぎるとコンテキストを圧迫する。
Q. 他社 LLM (GPT-4 / Gemini) でも同じバイアスはあるか? A. 程度の差はあるが全モデルに共通。特に Long context + 多段推論で顕著。Claude は「役立ちたい」がデフォルトで強いが、プロンプト工学で抑えることは可能。
Q. Calibration ルールで AI が臆病になりすぎないか? A. 初期は「全部 信頼度: 低」のような過剰反応も起きる。その場合は「高・中・低」の判定基準を具体的にプロンプトに書く (例: 「複数のデータソースで裏付け = 高」)。
Q. 人間のメンバーにも Calibration ルールを適用すべきか? A. すべき。実際、FP&A / 広告運用の現場で「数字が動いたら大騒ぎする」のは人間にも起きる。AI に任せる前に、人間側の報告フォーマットを先に Calibration 化 するのが筋の通った順序。
Q. 導入の工数は? A. ルール策定 = 1 週間。全エージェントへの適用 = 1 日。運用改善 = 継続。初期投資は軽い。
参考文献 / Sources
LLM バイアス研究:
- Anthropic: Sycophancy in LLMs
- Prompt Engineering for Calibrated Outputs (Anthropic)
- OpenAI GPT-4 System Card
mixednuts 内部ルール:
.claude/rules/calibration.md— 本記事の 7 ヶ条の完全版.claude/rules/auto-delegation.md— Task ツール強制委任ルール- 2026-04-07 インシデントレポート
関連記事: