두 집단을 비교 분석하는 도구, t-test
상황1)두개의 영업점포를 운영하고 있다고 합시다.
각 지점 고객 연령층이 다르다면 그에 맞는 프로모션을 준비하려합니다.
상활2) A점포 근무자를 대상으로 서비스 교육을 실시했는데,
교육 전후의 고객 컴플레인 수를 확인해서 실제로 효과가 있었는지 보고싶습니다.
이렇게 '두 집단' 간의 유의미한 차이를 분석하는데에는 t-test가 사용됩니다.
t-test는 두 집단간의 평균차이를 평균간 차이의 표준오차로 나눈 값(t값)과 자유도를 기초로,
그 차이가 표집의 오차에 의해 일어날 확률을 계산하여 유의확률과 비교한 뒤 집단간 차이를 판단합니다.
'상황1' 을 두고 엑셀로 돌려보겠습니다.
A지점과 B지점에서 우수고객을 임의로 추출한 뒤 연령대를 살펴보았습니다.
위 표본을 보고
'A지점의 고객 평균나이는 42세인 반면, B지점의 고객 평균나이는 38세이므로 연령대의 차이가 있네?'
라고 해석하는 것이 일반적일 것 입니다.
하지만 '이런 차이가 나타난 것은 우연은 아닐까?' 하고 의심을 해보고 검정을 해봅시다.
h_0 (귀무가설) : 두 지점간의 고객 연령 차이는 없다.
h_a (대립가설) : 두 지점간 고객 연령은 차이가 있다.
엑셀의 데이터분석에서 't-검정: 이분산 가정 두집단'을 선택합니다.
변수 1과 2의 범위를 설정한 뒤, 가설 평균차는 '0'을 기입합니다.
(귀무가설처럼 두 집단의 연령 차이는 '0', 즉 차이가 없을 것이라는 뜻입니다.)
이름표는 사용으로 체크하고, 유의수준은 더 가혹하거나 관대하게 할 수 있지만 일반적인 0.05로 지정합니다.
확인버튼을 누르면 이런 표가 생성됩니다. 우리는 일단 p-value에만 집중합니다.
p값이 0.05를 상회합니다.
즉 두 지점의 고객 연령의 차이는 우연히 발생한 것일 뿐, 통계적으로 유의미하지 않습니다.
위의 숫자를 보고 '두 지점의 고객 연령대 차이가 4살 정도다 난다'
또는 'A지점은 타겟은 40대, B지점은 30대를 타겟으로 한 마케팅을 펼쳐야 한다.' 라는
의사결정을 하기에는 무리가 있다고 볼 수 있습니다.
이러한 두집단의 분석을 도출하는 데에 생략된 것들이 많습니다.
동일한 집단의 전후를 비교하는 것인가
추출된 각 지점의 샘플은 등분산성을 만족하는가
차이의 여부가 아닌 크고 작음을 검증해야하는가 (단측검정, 양측검정)
두 집단이 아닌 세 집단도 검정할 수 있는가 (ANOVA)
우선은 쉬운 예제로 먼저 연습하고, 차차 알아가보겠습니다.
'Study > Numbers' 카테고리의 다른 글
p-value는 알고 갑시다 (0) | 2021.02.19 |
---|---|
[Excel로 숫자 보기] 데이터 분석 도구 설치 (0) | 2021.02.18 |