과제에서 A/B 테스트 설계를 하면서 개념을 제대로 짚고 넘어갔습니다.
사실 'A/B 테스트는 두 그룹 나눠서 비교하는 거잖아요' 수준이었는데, 실제로 설계해보니 몰랐던 게 한가득이더라구요 ㅋㅋ
p-value가 뭔지 드디어 알았다
p-value: "A랑 B가 실제로 차이 없다고 가정했을 때, 이번에 관찰된 것만큼 크거나 더 큰 차이가 우연히 나올 확률"
- p = 0.03 → "차이 없는데 이런 결과가 우연히 나올 확률 3%" → 유의미
- p = 0.3 → "우연히 나올 확률 30%" → 그냥 운일 수 있음
p < 0.05가 기준인 이유는 물리 법칙이 아니라 1920년대 통계학자 피셔가 제안한 업계 관례입니다.
"틀릴 위험 5% 허용"이 비즈니스 판단에서 합리적이라는 합의예요.
과제와 연결
이번 A/B 테스트 성공 기준을 p < 0.05로 잡았습니다.
그러고 보니 페르소나 A가 전체의 20.5%라 그룹당 약 100명 수준인데, 샘플이 적으면 차이가 커야만 p < 0.05가 나오더라구요
그래서 PRD에 샘플 사이즈 한계를 리스크로 명시했습니다.
차이가 클수록 p-value가 낮아진다, 그리고 샘플이 많으면 작은 차이도 잡힌다
같은 샘플 사이즈라도 차이가 클수록 p-value는 낮아집니다.
반대로 샘플이 엄청 많으면 1%p 차이도 p < 0.05가 나올 수 있어요.
배민같은 대기업은 이 경우에 "통계적으로는 유의미한데 비즈니스적으로 의미 있냐"는 문제가 생깁니다.
p-value만 보면 안 되고 실제 차이 크기도 같이 봐야 해요.
이번 과제에서 샘플 사이즈가 그룹당 100명 수준인 게 리스크인 이유가 여기 있습니다.
샘플이 적으면 실제로 효과가 있어도 통계적으로 유의미하다는 결론이 안 나올 수 있거든요.
성공 지표, 보조 지표, 가드레일 지표가 왜 다 필요해?
처음엔 "성공 지표 하나면 되는 거 아닌가"라고 생각했는데 그게 아니었습니다.
| 지표 | 역할 | 이번 과제 적용 |
| 성공 지표 | "테스트가 통했냐" | 장바구니 전환율 |
| 보조 지표 | "왜 통했냐/안 통했냐" 설명 | 리뷰 섹션 클릭율, 체류시간 |
| 가드레일 지표 | "다른 거 망가뜨리지 않았냐" | 구매 전환율, 찜/공유 클릭율 |
가드레일 지표가 없으면 이런 일이 생깁니다.
리뷰 요약 카드를 추가했더니 장바구니 전환율은 올랐는데 찜/공유 클릭율이 반토막 났다면?
성공 지표만 보면 "성공"인데 실제로는 기존 기능을 잠식한 것!
보조 지표는 "왜"를 설명하는 레이어입니다.
성공 지표 결과가 비슷하게 나왔을 때 "리뷰 클릭율은 B에서 확실히 높더라" 같은 인사이트로 다음 가설을 만드는 재료가 돼요.
성공 지표가 낮아도 실험을 끝까지 해야 하는 이유
중간 가서 보니까 성공 지표가 안 좋은 것 같아도 멈추면 안 됩니다.
초기엔 사용자의 익숙함이나 호기심으로 지표가 출렁이고, 실험 기간이 끝나야 신뢰할 수 있는 결과가 나옵니다.
중단은 가드레일 지표에 심각한 문제가 생겼을 때만 고려한다는 점 1!!!
'PM 기록' 카테고리의 다른 글
| 무신사는 왜 PC 버전을 다시 꺼냈나 (0) | 2026.06.17 |
|---|---|
| 내일배움캠프 PM 부트캠프 TIL: 과제 끝!!!! (0) | 2026.06.17 |
| 내일배움캠프 PM 부트캠프 TIL: PRD를 갈아엎다 (0) | 2026.06.16 |
| 내일배움캠프 TIL: 내 노트북이랑 슈퍼 엘니뇨중에 뭐가 더 뜨거울까 (0) | 2026.06.15 |
| 내일배움캠프 PM 부트캠프 TIL: 데이터는 뭔가 있다고 말해주는데, '왜'는 말 안 해준다 (0) | 2026.06.12 |