# SKILL 동적 로딩 운영 측정 SOT (Phase 5)

> **신설 일자**: 2026-05-07
> **근거**: 2026-05-07 SKILL 동적 로딩 분할 정식 도입 (commit `18fc680`)
> **목적**: 분할 도입 후 토큰 절감률·매칭 정확도·헌법급 위반 발생 빈도 점진 측정
> **운영 영역**: PM 분기별 review + 운영자 수동 수집 + 자동화 가능 영역 점진 보강

---

## 1. 측정 메트릭 4종

| # | 메트릭 | 측정 방식 | 목표 | 임계 알림 |
|---|--------|----------|------|---------|
| **M1** | 세션당 시작 토큰 | log 분석 (수동·자동 보강) | < 15K (현 60K 대비 75% 절감) | > 25K 시 경고 |
| **M2** | SKILL 활성화 정확도 | 헌법급 위반 사례 / 전체 작업 | < 1% (월 분석) | ≥ 1건/월 시 review |
| **M3** | 트리거 매칭 정밀도 (False Positive율) | 불필요 SKILL 활성 / 활성 총수 | < 10% | > 20% 시 description 튜닝 |
| **M4** | False Negative율 | 활성 필요했는데 비활성 / 활성 필요 시나리오 | < 10% | > 5% 시 description 보강 |

---

## 2. 측정 데이터 누적 위치

### 2-A. 본 SOT (`memory/skill_measurement_sot.md`)
- 메트릭 정의 + 분기별 review 결과 누적
- 운영자 수동 기입

### 2-B. 자동 수집 영역 (운영 후 점진 보강)
- `scripts/skill_trigger_audit.sh` (PostToolUse) — false negative 신호 수집
- `scripts/c35_obligation_check.sh` (PostToolUse) — 의무 호출 누락 신호 수집
- 신호 누적 위치: `$HOME/.claude/.skill_metrics/` (PC 로컬, 휘발성)

---

## 3. 베이스라인 데이터 (2026-05-07 분할 도입 시점)

### 3-A. SKILL.md 본문 분량

| 시점 | 본문 줄 수 | 본문 KB | 추정 토큰 |
|------|---------|--------|---------|
| 분할 전 (`SKILL.md.bak_20260507_0930.md`) | 3,043줄 | 190KB | ~50-60K |
| **분할 후 (현 시점)** | **~250줄** | **~15KB** | **~10-15K** |
| 감축률 | -91.8% | -92.1% | **-75% 추정** |

### 3-B. SKILL 카탈로그 (11종 + 정식 SOT 1종 = 12종 등록)

| SKILL | 분량 추정 | 항시 주입 대상 |
|-------|---------|------------|
| `bt-foundation` (L1 헌법급) | ~10K | 14 agent 모두 |
| `bt-index` (메타) | ~3K | 14 agent 모두 |
| `bt-commit-rules` | ~5K | 동적 (commit 작업 시) |
| `bt-task-delegation` | ~7K | 동적 (Task 위임 시) |
| `bt-data-protection` | ~5K | 동적 + balance-designer 항시 |
| `bt-session-mgmt` | ~7K | 동적 (세션 갱신·공유 시) |
| `bt-pd-tracking` | ~5K | 동적 (PD 지시 트래킹 시) |
| `bt-document-mgmt` | ~5K | 동적 (문서·규칙 변경 시) |
| `bt-c50-token-policy` | ~3K | 동적 (큰 작업 시) |
| `bt-archive-mgmt` | ~3K | 동적 (폐기·아카이브 시) |
| `bt-planning-fun` | ~3K | 기획팀 항시 |
| `BurningTimes-코어룰` (인덱스 SOT) | ~10K | 동적 (코어룰 인덱스 조회 시) |

---

## 4. 분기별 Review 사이클

### 4-A. Review 시점 트리거
- **분기 1회 (3개월마다)** PM 자체 review
- **임계 초과 발견 즉시** PM 자체 review (M2 ≥ 1건·M3 > 20%·M4 > 5%)

### 4-B. Review 출력 항목
1. 분기별 메트릭 4종 측정값
2. 임계 위반 영역 식별
3. description 키워드 튜닝 필요 SKILL 식별
4. 헌법급 위반 사례 분석 (있다면)
5. 다음 분기 개선 안건

### 4-C. Review 결과 본 SOT 누적

```markdown
## YYYY-Q# Review (YYYY-MM-DD)
- M1 평균: __K
- M2 위반 건수: __건
- M3 평균: __%
- M4 평균: __%
- 임계 초과: ____
- 튜닝 안건: ____
- 다음 분기 개선: ____
```

---

## 5. 자동화 보강 영역 (운영 후 점진)

### 5-A. 측정 자동화 후보

| 메트릭 | 자동화 가능성 | 구현 방법 |
|--------|----------|---------|
| M1 | 중간 | Claude Code log 파싱 (외부 도구 의존) |
| M2 | 낮음 | LLM 자가 보고 신뢰 영역 (수동 review 우선) |
| M3 | 중간 | `skill_trigger_audit.sh` 누적 신호 분석 |
| M4 | 중간 | `c35_obligation_check.sh` 의무 호출 누락 신호 |

### 5-B. 신설 가능 자동화 스크립트
- `scripts/skill_metrics_collect.sh` (SessionEnd hook 후보) — 세션 종료 시 측정 데이터 자동 수집
- `scripts/skill_metrics_report.sh` (분기별 수동 실행) — 본 SOT 자동 갱신

위 스크립트는 **운영 데이터 1분기 누적 후 신설** 권고. 즉시 신설은 측정 대상 부재로 효과 X.

---

## 6. 임계 위반 시 대응 절차

### 6-A. M2 헌법급 위반 발생 (≥ 1건)
1. 즉시 PM 자진 보고 (C3·C5 정합)
2. 위반 발생 SKILL 영역 식별
3. description 키워드 보강 또는 hook 차단 강화
4. 본 SOT에 사례 누적 (영구 자산)

### 6-B. M3 False Positive율 > 20%
1. 활성 빈도 높은 SKILL description 키워드 분석
2. 광범위 매칭 키워드 한정·축소
3. 분기별 안건 상신 (PD review)

### 6-C. M4 False Negative율 > 5%
1. 누락 영역 키워드 분석 (`skill_trigger_audit.sh` 신호)
2. 해당 SKILL description 키워드 보강
3. hook 안전망 강화 (필요 시)

---

## 7. 연관 자산

- **분할 설계 v1**: `공유/조직공지/2026-05-07_SKILL_동적로딩_분할_설계_v1.md`
- **PoC Phase 2 결과**: `memory/poc_skill_phase2_results.md`
- **이전 본문 백업**: `.claude/skills/BurningTimes-코어룰/SKILL.md.bak_20260507_0930.md`
- **Hook 운영**: `scripts/skill_trigger_audit.sh`·`c35_obligation_check.sh`·`hardboiled_empathy_check.sh`·`proactive_inference_check.sh`
- **신설 SKILL 11종**: `.claude/skills/bt-*/SKILL.md`

---

## 8. 변경 이력

| 일시 | 변경 |
|------|------|
| 2026-05-07 | **v1 신설** — Phase 5 운영 측정 SOT 정식 시작 (분할 도입 직후 베이스라인 + 분기별 review 사이클) |