AI ハルシネーションをゼロ化する Calibration 設計 — 意思決定を歪めない運用ルール | Insights

Q: ルール文書は何行くらいで書けば良いか？

mixednuts の `.claude/rules/calibration.md` は **220 行**。例示を含めて具体的に書く。短すぎると LLM が解釈できず、長すぎるとコンテキストを圧迫する。

Q: Calibration ルールで AI が臆病になりすぎないか？

初期は「全部 信頼度: 低」のような過剰反応も起きる。その場合は「高・中・低」の判定基準を具体的にプロンプトに書く (例: 「複数のデータソースで裏付け = 高」)。

Q: 人間のメンバーにも Calibration ルールを適用すべきか？

すべき。実際、FP&A / 広告運用の現場で「数字が動いたら大騒ぎする」のは人間にも起きる。AI に任せる前に、**人間側の報告フォーマットを先に Calibration 化** するのが筋の通った順序。

TL;DR

AI ハルシネーションの多くは「モデルが嘘をつく」ではなく「AI の出力が盛られる」問題。経営判断を歪めるのは架空の数字より「軽微な事象を致命的に書く」こと。mixednuts が実インシデント (17 倍乖離警告 → 実害 ¥3) から策定した Calibration ルール 7 ヶ条を公開。経営層に AI を使ってもらうための運用設計。

¥3

「17 倍乖離！計測が壊れている！」と AI が騒いだ実害

Source · mixednuts 2026-04-07 インシデント

「AI は信頼できない」の正体

結論

経営層が AI の出力に疑念を抱く主因は、モデルが嘘をつくことではなく AI が重要度を誇張する癖 にある。「異常値！」「致命的！」「壊滅的！」と書かれた警告の 9 割は、実害を計算すると対応不要レベル。対策はモデル選定でも temperature 調整でもなく、運用ルールとして「盛らない」を組織化する こと。

LLM には構造的なバイアスがあります。それは 「役立ちたい」 (helpful) バイアス。これが「優秀に見られたい」「情報の価値を強く見せたい」にすり替わると、以下の連鎖が起きます:

異常値を発見 → "ドラマ" を構築
断定形で「壊れている」「死んでいる」と書く → 緊急性を演出
先回りで解決策を出す → 問題解決力を見せたい
検証前に次の問いを並べる → 「次どうしましょう？」で動いている感を出す

人間 (CEO) としては 毎回手動で訂正 することになり、時間が消えていきます。

事件 — ある日の 4 連発ドラマ化

2026-04-07、クライアント広告のデータレビューで、AI が 30 分の間に 4 つの警告を出しました:

「17 倍の乖離！ Google Ads と GA4 の計測が壊れている可能性」
「他サイトに汚染されている！ 他ドメインから 3 件流入している」
「12 カテゴリに CPN 再編が必要！ カテゴリ別最適化ができていない」
「4 媒体が死んでいる！ Yahoo / Bing / Microsoft / Criteo で CPA 急上昇」

事件後、計 4 時間かけて 4 件すべての実害を計算しました:

1 発目「17 倍乖離」→ 実害 ¥3
2 発目「汚染」→ 実害 ¥3 (同じ 3 件、全 CV の 1.9%)
3 発目「12 CPN」→ 商品カテゴリは 3 つ、主力は 1 つ。12 は AI の空想
4 発目「4 媒体死亡」→ 4 媒体合計広告費 ¥12 万/月、全体予算の 2.4%。「死んでいる」のではなく規模が小さい

対策 — Calibration ルール 7 ヶ条

事件の翌日に .claude/rules/calibration.md を策定し、全 AI エージェントのシステムプロンプトに注入しました。

PRINCIPLE 01

異常値を見たら、まず実害を計算する

異常値を発見しても、先に金額/件数で実害を計算する まで報告しない。実害計算の 3 軸:

金額: いくら損したか / 損するリスクか
件数: 何件の取引/CVに影響したか
時間: いつから/いつまでの問題か

NG: 「17 倍の乖離！計測壊れてる可能性！」 OK: 「17 倍乖離あり。ただし実害 ¥3、CV 1 件。Smart Bidding は GA4 CV で動作中なので最適化への影響は軽微」

PRINCIPLE 02

断定形を使わない

NG	OK
「〜が原因です」	「〜の可能性が高い (信頼度: 中)」
「〜は壊れています」	「〜が想定と異なる挙動。要検証」
「〜すべきです」	「〜という選択肢があります。判断材料: ...」

PRINCIPLE 03

感情語・誇張表現を禁止

禁止語彙:「致命的」「破滅的」「クリティカル」「壊れている」「死んでいる」「🚨🔥💥」

代替: 「致命的」→「実害 ¥X、優先度 P0」。「壊れている」→「想定と異なる挙動。再現手順: ...」

PRINCIPLE 04

仮説と事実を構造的に分離

レポートは 「事実」セクション と 「仮説」セクション を分ける。仮説には 信頼度 (高 80%+ / 中 50-80% / 低 50%未満) を付与。

PRINCIPLE 05

撤回を恐れない

新しいデータが前の結論と矛盾したら、即座に明示的に撤回 する。「先ほど『計測が壊れている』と報告しましたが、実害計算したところ ¥3 でした。撤回します」と言える AI になることが、信頼の基盤。

PRINCIPLE 06

沈黙を恐れない

「考え中」「データを確認中」と言って 作業を止める ことに価値がある。「動いて見せたい」圧力に負けて先回りで提案を出さない。

PRINCIPLE 07

次どうします？で提案を埋めない

問いを並べる前に、まず事実報告を完結させる。選択肢を並べる時は、それぞれの判断材料 を必ず添える。

出力前の自己チェックリスト

各 AI エージェントは、レポートを書き終えたら提出前に必ず以下をチェック:

主張は断定形になっていないか？
「致命的」「壊れている」等の感情語を使っていないか？
異常値の実害 (金額・件数) を計算したか？
事実と仮説が分離されているか？
仮説に信頼度 (高/中/低) が付いているか？

このチェックを通らないレポートは CEO に出さない。

温度パラメータとの違い

よくある誤解: 「temperature = 0 にすれば盛らなくなる」

違います。temperature はランダム性の抑制 であって、「盛り」を抑えるものではない。temperature 0 でも LLM は「17 倍乖離！」と書きます。温度とカリブレーションは直交する軸。両方必要。

経営層にとっての意味

Calibration ルールを組織化すると、「AI の報告を毎回訂正する」という CEO の時間コストが消滅 します。mixednuts の経営チームで実測:

導入前: AI 報告の訂正に週 4 時間
導入後: 週 30 分以下

週 3.5 時間の CEO 時間 × 52 週 = 年間 180 時間 が浮きます。これが AI を「経営の燃料」にする最大のレバレッジ。

FAQ

Q. ルール文書は何行くらいで書けば良いか？ A. mixednuts の .claude/rules/calibration.md は 220 行。例示を含めて具体的に書く。短すぎると LLM が解釈できず、長すぎるとコンテキストを圧迫する。

Q. 他社 LLM (GPT-4 / Gemini) でも同じバイアスはあるか？ A. 程度の差はあるが全モデルに共通。特に Long context + 多段推論で顕著。Claude は「役立ちたい」がデフォルトで強いが、プロンプト工学で抑えることは可能。

Q. Calibration ルールで AI が臆病になりすぎないか？ A. 初期は「全部信頼度: 低」のような過剰反応も起きる。その場合は「高・中・低」の判定基準を具体的にプロンプトに書く (例: 「複数のデータソースで裏付け = 高」)。

Q. 人間のメンバーにも Calibration ルールを適用すべきか？ A. すべき。実際、FP&A / 広告運用の現場で「数字が動いたら大騒ぎする」のは人間にも起きる。AI に任せる前に、人間側の報告フォーマットを先に Calibration 化 するのが筋の通った順序。

Q. 導入の工数は？ A. ルール策定 = 1 週間。全エージェントへの適用 = 1 日。運用改善 = 継続。初期投資は軽い。

参考文献 / Sources

LLM バイアス研究:

mixednuts 内部ルール:

.claude/rules/calibration.md — 本記事の 7 ヶ条の完全版
.claude/rules/auto-delegation.md — Task ツール強制委任ルール
2026-04-07 インシデントレポート

AI-first 組織の構築にご関心ありませんか?

私たちの知見をあなたの事業に実装します。60分の無料相談をご予約ください。

無料相談を申し込む →