본문 바로가기

PM 기록

A/B 테스트, 이게 뭔소리야

과제에서 A/B 테스트 설계를 하면서 개념을 제대로 짚고 넘어갔습니다.

사실 'A/B 테스트는 두 그룹 나눠서 비교하는 거잖아요' 수준이었는데, 실제로 설계해보니 몰랐던 게 한가득이더라구요 ㅋㅋ

p-value가 뭔지 드디어 알았다

p-value: "A랑 B가 실제로 차이 없다고 가정했을 때, 이번에 관찰된 것만큼 크거나 더 큰 차이가 우연히 나올 확률"

  • p = 0.03 → "차이 없는데 이런 결과가 우연히 나올 확률 3%" → 유의미
  • p = 0.3 → "우연히 나올 확률 30%" → 그냥 운일 수 있음

p < 0.05가 기준인 이유는 물리 법칙이 아니라 1920년대 통계학자 피셔가 제안한 업계 관례입니다.

"틀릴 위험 5% 허용"이 비즈니스 판단에서 합리적이라는 합의예요.

 

과제와 연결
이번 A/B 테스트 성공 기준을 p < 0.05로 잡았습니다.
그러고 보니 페르소나 A가 전체의 20.5%라 그룹당 약 100명 수준인데, 샘플이 적으면 차이가 커야만 p < 0.05가 나오더라구요
그래서 PRD에 샘플 사이즈 한계를 리스크로 명시했습니다.

차이가 클수록 p-value가 낮아진다, 그리고 샘플이 많으면 작은 차이도 잡힌다

같은 샘플 사이즈라도 차이가 클수록 p-value는 낮아집니다.

반대로 샘플이 엄청 많으면 1%p 차이도 p < 0.05가 나올 수 있어요.

 

배민같은 대기업은 이 경우에 "통계적으로는 유의미한데 비즈니스적으로 의미 있냐"는 문제가 생깁니다.

p-value만 보면 안 되고 실제 차이 크기도 같이 봐야 해요.

 

이번 과제에서 샘플 사이즈가 그룹당 100명 수준인 게 리스크인 이유가 여기 있습니다.

샘플이 적으면 실제로 효과가 있어도 통계적으로 유의미하다는 결론이 안 나올 수 있거든요.

성공 지표, 보조 지표, 가드레일 지표가 왜 다 필요해?

처음엔 "성공 지표 하나면 되는 거 아닌가"라고 생각했는데 그게 아니었습니다.

 

지표 역할 이번 과제 적용
성공 지표 "테스트가 통했냐" 장바구니 전환율
보조 지표 "왜 통했냐/안 통했냐" 설명 리뷰 섹션 클릭율, 체류시간
가드레일 지표 "다른 거 망가뜨리지 않았냐" 구매 전환율, 찜/공유 클릭율

 

가드레일 지표가 없으면 이런 일이 생깁니다.

 

리뷰 요약 카드를 추가했더니 장바구니 전환율은 올랐는데 찜/공유 클릭율이 반토막 났다면?

성공 지표만 보면 "성공"인데 실제로는 기존 기능을 잠식한 것!

 

보조 지표는 "왜"를 설명하는 레이어입니다.

성공 지표 결과가 비슷하게 나왔을 때 "리뷰 클릭율은 B에서 확실히 높더라" 같은 인사이트로 다음 가설을 만드는 재료가 돼요.

성공 지표가 낮아도 실험을 끝까지 해야 하는 이유

중간 가서 보니까 성공 지표가 안 좋은 것 같아도 멈추면 안 됩니다.

초기엔 사용자의 익숙함이나 호기심으로 지표가 출렁이고, 실험 기간이 끝나야 신뢰할 수 있는 결과가 나옵니다.

중단은 가드레일 지표에 심각한 문제가 생겼을 때만 고려한다는 점 1!!!