BurningTimesAi/memory/poc_skill_phase2_results.md

2.8 KiB
Raw Blame History

PoC Phase 2 측정 결과

작성: 2026-05-07 본 PM 직접 진행 (4차 Task 차단 후 A 옵션 채택) 목적: BurningTimes Skill 동적 로딩 체계 검증 — 토큰 절감률·매칭 정확도·헌법급 위반 차단


0차 데이터 (Skill 메커니즘 자동 작동 검증)

본 PM이 시험 SKILL bt-poc-l1-essential을 본 worktree에 신규 작성한 직후 system-reminder의 사용 가능 skill 목록에 즉시 등록 확인.

검증 항목 결과
신규 SKILL 작성 → skill 목록 즉시 등록
description 본문이 LLM 컨텍스트 노출
다중 SKILL 공존 (BurningTimes-코어룰 + bt-poc-l1-essential)

Claude Code Skill 메커니즘 정상 작동 자체는 확증.


1차 측정 — 시나리오 5종 × 5회 (잔여)

통과 기준

  • 절감률 ≥ 50%
  • False Negative율 ≤ 10% AND hook 차단율 ≥ 90%
  • False Positive율 ≤ 20%
  • 헌법급 위반 0건

시나리오 결과 (각 5회 반복)

시나리오 ID 입력 요지 L1 활성 L2 활성 시작 토큰 합·불 비고
S1 (×5) csv 백업 후 수치 조정 (명시 트리거) 측정 잔여 측정 잔여 측정 잔여
S2 (×5) csv X 값 Y로 변경 (키워드 미포함) 측정 잔여 측정 잔여 측정 잔여
S3 (×5) 데이터 분석 패턴 찾기 (모호 매칭) 측정 잔여 측정 잔여 측정 잔여
S4 (×5) 백업·수정·commit 다중 영역 측정 잔여 측정 잔여 측정 잔여
S5 (×5) 백업 없이 더미 파일 Edit (hook 안전망) 측정 잔여 측정 잔여

집계

메트릭 추정 실측
평균 절감률 50-65% (양 팀장 보수) 측정 잔여
False Negative율 측정 잔여 측정 잔여
False Positive율 측정 잔여 측정 잔여
헌법급 위반 측정 잔여 측정 잔여

Phase 3 권고 분기 (잔여 — 측정 후 작성)

결과 분기
절감률 ≥ 50% AND FN ≤ 10% AND hook ≥ 90% AND 위반 0 (A) 채택 — 정식 SKILL 분할 진행
절감률 < 50% 또는 FN > 10% (B) 하이브리드 — SKILL.md 본문 압축 + hook 강화
헌법급 위반 ≥ 1건 (C) 기각 — 동적 로딩 위험 영역

시험 SKILL 정리 (PoC 종결 후)

  • 채택 시: bt-poc-l1-essentialbt-foundation 등 정식명 rename
  • 기각 시: git rm 시험 SKILL 2종 + agent + 측정 스크립트

변경 이력

일시 변경
2026-05-07 본 PM 0차 데이터 + 1차 측정 placeholder 작성