Skills as Microservices — 79 本のスラッシュコマンドで組織を動かす | Insights

Q: Skill のテストはどう書く？

`empirical-prompt-tuning` で過去の入出力ログをテストケース化。CEO が「この時はこう返すべきだった」を記録 → 再現テストにする。

Q: Skill 内でエラーが起きたら？

`.claude/rules/calibration.md` に従い、実害計算してから報告。ドラマ化禁止。デバッグ情報は logs に、ユーザーには要約を。

TL;DR

Claude Code の Skills (スラッシュコマンド) は、1 つのタスクを「名前付き・起動可能な単位」にした AI のマイクロサービス。79 本を運用する設計原則: (1) 1 Skill = 1 責任 / (2) トリガーワードを明確化 / (3) 入出力を standardize / (4) 品質測定ループ / (5) 3 ヶ月未使用で退役検討。エージェント定義との使い分け、empirical-prompt-tuning による品質改善、Tier 分類の運用を公開。

本の Slash Command を運用中

Source · mixednuts 現状

Skills とは何か

結論

Claude Code の Skills（スラッシュコマンド）をマイクロサービスのように設計する運用論。5 原則: (1) 1 Skill = 1 責任 (2) トリガーワード明確化 (3) 入出力 standardize (4) 品質測定ループ (5) 3 ヶ月未使用で退役検討。empirical-prompt-tuning で Tier 1 Skill は応答時間 -30%、トークン -25% を達成。

Claude Code の Skills は /skill-name args 形式で呼び出せる、名前付きの実行単位 です。例えば:

/morning-briefing → 朝の状況レポート生成
/weekly-ad-review {案件名} → 該当案件の週次広告レビュー
/system-health-check → インフラ監視

一見、ただのショートカットに見えますが、運用規模が 50 本を超えると マイクロサービスの原則がそのまま効いてきます。

Skills × エージェントの境界

よくある誤解: 「Skill と Agent ってどう違うの？」

運用上の境界:

観点	Skill	Agent
粒度	1 タスク = 1 Skill	専門領域 = 1 Agent
呼び出し	`/slash` でユーザーが発火	Task ツールで自動発火
状態	ステートレス	対話履歴を持つ
再利用	他の Skill/Agent から呼べる	基本単独
変更コスト	低（Markdown 1 本）	中（定義 + プロンプト調整）

Skill はワークフロー、Agent は専門家。似ているが役割が違う。

5 つの設計原則

PRINCIPLE 01

1 Skill = 1 責任

1 つの Skill が複数タスクを抱え込むと破綻する。

悪い例: /reporting (広告・FP&A・KPI を全部 1 本) 良い例: /weekly-ad-review / /weekly-profit-report / /kpi-dashboard に分離

責任の分離は、テストしやすさと再利用性の両方を上げる。

PRINCIPLE 02

トリガーワードを明確化

Skills の description には必ず「トリガー」節を入れる:

# morning-briefing
 
06:30 JST に自動実行推奨。
Use when user says: "朝のブリーフィング", "morning briefing",
"今日の状況教えて", "朝の報告".

ユーザーが言う言葉 ≒ トリガー。これが曖昧だと、メインセッションが Skill を呼び忘れる or 間違った Skill を呼ぶ。

PRINCIPLE 03

入出力を standardize する

Skill の出力先を統一:

レポート → _reports/YYYY-MM-DD_name.md
Slack 通知 → 案件別チャネル（事前に決定済み）
context.md 更新 → projects/{name}/context.md
memory 記録 → memory/decisions.md or auto-memory

これが統一されていると、後続の Skill が前段の出力を自動参照できる。パイプラインが組める。

PRINCIPLE 04

品質測定ループを入れる

mizchi 氏の empirical-prompt-tuning スキルを採用し、各 Skill の出力品質を測定。

測定軸:

Executor self-report: Skill が「自分の出力に満足か」を 1-5 で申告
Caller-side 測定: 親セッションの tool_uses 数、duration、再実行回数

3 ヶ月で 1 回、Tier 1 の Skill 5 本に対してフルループ (1 Skill につきサブエージェント 5 並列でテスト) を回す。

PRINCIPLE 05

3 ヶ月未使用で退役検討

Skills は溜まる。79 本の運用では、月次で実行ログを確認し、3 ヶ月未使用の Skill は:

「統合できる候補があるか」確認
退役決定なら .claude/skills/archive/ に移動
CLAUDE.md の索引から削除

Skill カタログは「使われるもの」だけにする。肥大化は品質の敵。

Skill の構造 — Markdown 1 本

Claude Code の Skill は 1 つの Markdown ファイル:

---
description: "日次の朝ブリーフィングを生成する"
tools: ["Read", "Bash", "Edit", "Grep"]
---
 
# Morning Briefing
 
## Workflow
 
1. freee MCP から月次キャッシュ残高を取得
2. GA4 API で昨日のトラフィックを取得
3. Google Ads API で広告費・ROAS を集計
4. 3 つを BLUF 形式で結合
5. Slack #morning-briefing に投稿
6. `_reports/{date}_morning-briefing.md` に保存
 
## Output Format
 
- BLUF: 一行サマリ
- 数字 (前日比、前週比、予算比)
- 今日の優先タスク 3 点