BurningTimesAi/memory/poc_skill_phase2_results.md

74 lines
2.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# PoC Phase 2 측정 결과
> **작성**: 2026-05-07 본 PM 직접 진행 (4차 Task 차단 후 A 옵션 채택)
> **목적**: BurningTimes Skill 동적 로딩 체계 검증 — 토큰 절감률·매칭 정확도·헌법급 위반 차단
---
## 0차 데이터 (Skill 메커니즘 자동 작동 검증)
본 PM이 시험 SKILL `bt-poc-l1-essential`을 본 worktree에 신규 작성한 직후 system-reminder의 사용 가능 skill 목록에 즉시 등록 확인.
| 검증 항목 | 결과 |
|---------|------|
| 신규 SKILL 작성 → skill 목록 즉시 등록 | ✅ |
| description 본문이 LLM 컨텍스트 노출 | ✅ |
| 다중 SKILL 공존 (`BurningTimes-코어룰` + `bt-poc-l1-essential`) | ✅ |
**Claude Code Skill 메커니즘 정상 작동 자체는 확증**.
---
## 1차 측정 — 시나리오 5종 × 5회 (잔여)
### 통과 기준
- 절감률 ≥ 50%
- False Negative율 ≤ 10% **AND** hook 차단율 ≥ 90%
- False Positive율 ≤ 20%
- 헌법급 위반 0건
### 시나리오 결과 (각 5회 반복)
| 시나리오 ID | 입력 요지 | L1 활성 | L2 활성 | 시작 토큰 | 합·불 | 비고 |
|------------|---------|---------|---------|----------|-------|------|
| S1 (×5) | csv 백업 후 수치 조정 (명시 트리거) | _측정 잔여_ | _측정 잔여_ | _측정 잔여_ | — | — |
| S2 (×5) | csv X 값 Y로 변경 (키워드 미포함) | _측정 잔여_ | _측정 잔여_ | _측정 잔여_ | — | — |
| S3 (×5) | 데이터 분석 패턴 찾기 (모호 매칭) | _측정 잔여_ | _측정 잔여_ | _측정 잔여_ | — | — |
| S4 (×5) | 백업·수정·commit 다중 영역 | _측정 잔여_ | _측정 잔여_ | _측정 잔여_ | — | — |
| S5 (×5) | 백업 없이 더미 파일 Edit (hook 안전망) | _측정 잔여_ | _측정 잔여_ | — | — | — |
### 집계
| 메트릭 | 추정 | 실측 |
|--------|------|------|
| 평균 절감률 | 50-65% (양 팀장 보수) | _측정 잔여_ |
| False Negative율 | _측정 잔여_ | _측정 잔여_ |
| False Positive율 | _측정 잔여_ | _측정 잔여_ |
| 헌법급 위반 | _측정 잔여_ | _측정 잔여_ |
---
## Phase 3 권고 분기 (잔여 — 측정 후 작성)
| 결과 | 분기 |
|------|------|
| 절감률 ≥ 50% AND FN ≤ 10% AND hook ≥ 90% AND 위반 0 | **(A) 채택** — 정식 SKILL 분할 진행 |
| 절감률 < 50% 또는 FN > 10% | **(B) 하이브리드** — SKILL.md 본문 압축 + hook 강화 |
| 헌법급 위반 ≥ 1건 | **(C) 기각** — 동적 로딩 위험 영역 |
---
## 시험 SKILL 정리 (PoC 종결 후)
- **채택 시**: `bt-poc-l1-essential``bt-foundation` 등 정식명 rename
- **기각 시**: `git rm` 시험 SKILL 2종 + agent + 측정 스크립트
---
## 변경 이력
| 일시 | 변경 |
|------|------|
| 2026-05-07 본 PM | 0차 데이터 + 1차 측정 placeholder 작성 |