• 통계학을 통해 확인하고 싶은 것
    • 효과가 있는가?  – 가설검증(hypothesis testing)
    • 효과의 크기는 어느 정도인가? – 신뢰구간(confidence interval)

 

  • 가설검증
    • 가설
      • 효과가 없다 (귀무가설=영가설, null hypothesis)
      • 효과가 있다 (대립가설, alternative hypothesis)
        • 단측 대립가설 (효과의 방향까지 정의.  크다 or 작다.  one-sided alternative)
        • 양측 대립가설 (효과가 있다는 것까지만 정의.  같지 않다.  two-sided alternative)  *일반적으로 사용
    • 가설검증의 기본
      • innocent until proven guilty
      • 귀무가설을 증명할 수는 없다.
        • 대립가설을 지지하는 증거가 충분하지 않으면, 기본적으로는 귀무가설을 지지한다.
        • 단, 대립가설을 지지하는 증거가 충분하지 않다고 해서, 귀무가설이 사실임을 증명하는 것은 아니다.
          • p값이 크다는 것은 귀무가설에 반하는 증거가 불충분하다는 것이지, 귀무가설을 증명하는 증거가 있다는 것이 아님 (중요!)

 

  • 통계학이 현상을 설명하는 방식
    • 현상(실험)
      • A채널과 B 채널로 인입된 사용자들의 결제액을 비교했더니, B채널로 인입된 사용자들이 평균 7500원 더 많이 결제했다.
    • 그냥 직관적인 설명?
      • B채널이 A채널보다 더 좋다
      • 평균 결제액의 증가는 7500원이다
    • 여기에 대한 통계학의 겸손한 대답!
      • B채널이 효과가 없는데 이렇게 큰 표본평균 결제액 증가값이 관측될 확률은 11%다 (p-값)
      • 평균 결제액의 증가에 대한 95% 신뢰구간은 -5300, 20300 이다.

 

  • 통계학의 가설 검증
    • 모수와 표본
      • “우리가 현재 관측한 데이터는 모수의 어떤 값에서 관측될 수 있는 여러 가능한 데이터 중 하나다”
      • 모집단(population)의 수치적 요약인 모수(parameter)는 절대불변의 값 (하지만 우리가 알 수 없는 값)
      • 표본(sample)의 수치적 요약인 통계량(statistic)은 잴 때 마다 달라지는 값 (추출되는 표본에 따라서 매번 조금씩 다른 값)
        • 표본 크기가 충분히 크다면, 모집단의 본포와 상관없이 표본의 평균은 정규분포 (=중심극한정리)
    • 표본에서 추출한 통계량은 하나의 고정된 값이 아니고, 그 자체가 특정 ‘분포’를 이룬다 (주로 정규분포)
      • 10,000번의 관측(시뮬레이션)을 한다고 가정해보면, 10000개의 통계량으로 이루어진 평균분포, 표준편차분포, t-통계량 분포를 각각 구할 수 있다
    • 신뢰구간
      • 모수(parameter)가 어느 범위 안에 있는지를 확률적으로 보여주는 방법
      • 95% 신뢰구간의 개념
        • 반복적으로 표본 추출을 100회 했을 때, 모평균(parameter)을 포함한 신뢰구간이 95개 나올 수 있다.. 고 해석해야 함
        • (단순히 모평균을 포함할 확률이 95%라고 보면 안됨)
        • https://blog.naver.com/vnf3751/220823007712
    • t-통계량을 해석하는 법
      • 우리가 관측한 t-통계량 값이 1.3이라면
      • 10000개의 시뮬레이션 중, t-통계량이 1.3보다 큰 결과를 가진 시뮬레이션은 몇 개인가?  그 비율은?
      • 이까지 이해되었으면 이제 p값으로 넘어가자!
    • P-값을 해석하는 법
      • P값의 정의
        • 귀무가설 하에서, 관찰된 통계량만큼의 극단적인 값이 관찰될 확률
        • The p-value is defined as the probability, under the assumption of the null hypothesis, of obtaining a result equal to or more extreme than what was actually observed
      • P값을 해석하기
        • p=0.5 라면,
          • 귀무가설 하에서 우리가 얻은 통계량이 관찰될 확률이 50% -> 매우 높다 -> 귀무가설에 대한 반박증거가 부족하다
        • p=0.01 이라면
          • 귀무가설 하에서 우리가 얻은 통계량이 관찰될 확률이 1% -> 매우 낮다 -> 귀무가설을 반박할 수 있다.
        • p = 0.10 을 해석해보자.
          • A채널과 B채널 간 효과의 차이가 없다면 우리가 관측한 정도의 데이터만큼 큰 t-통계량 값을 관측할 확률은 10%이다.
          • A채널과 B채널의 효과 차이가 없을 확률이 90%이고, B채널이 더 효과적일 확률이 10%이다… 는 식으로 해석하면 안됨.
    • P-값의 오해와 남용 (중요!)
      • 1. p-value는 데이터가 특정 통계 모형과 얼마나 대립하는지 나타낸다.
      • 2.  p-value는 연구 가설이 참일 확률이나 데이터가 오로지 우연으로 생성되었을 확률을 측정하지 않는다.
      • 3. p-value가 특정 임계점을 통과했는가가 단독으로 과학적 결론이나 사업적/정책적 결정을 내리는 근거가 되어서는 안 된다.
      • 4. 적절한 추론에는 완전한 보고와 투명성이 필요하다.
      • 5. p-value, 혹은 통계적 유의성은 효과의 크기나 결과의 중요성을 측정하지 않는다.
      • 6. p-value 자체는 모형이나 가설에 관련한 증거에 대한 훌륭한 척도를 제공하지 않는다.
      • 관련 링크

 

  • 통계적 검정력
    • 1종 오류(alpha)
      • 귀무가설이 옳은데 이를 기각하는 오류
      • 효과가 없는데, 효과가 있다고 판단
        • (남성에게) 임신하셨습니다?!
      • 일반적으로 1종 오류는 분석자가 기준을 정함 (신뢰수준 95%, 99%… 하는 식으로)
    • 2종 오류(beta)
      • 귀무가설이 옳지 않은데 이를 채택하는 오류
      • 효과가 있는데, 효과가 없다고 판단
        • (임산부에게) 임신이 아닙니다?!
    • 검정력(power)
      • 대립가설이 옳을 때 귀무가설을 기각할 확률 (=대립가설이 참일 때 대립가설을 채택할 확률)
        • 실제로 효과가 있는 것을 분석을 통해 효과가 있다고 증명할 수 있는 힘
        • 계산: 1 – beta
      • 다른 조건이 같을 때 검정력을 높이려면, 1종 오류가 늘어난다.
        • 1종오류와 2종오류는 기본적으로 어느 한 쪽이 커지면 다른 쪽이 작아지는 구조임
        • 1종오류를 늘리지 않고 검정력을 높이려면 -> 표본 수를 늘리면 됨
      • 참고 글
      • sample size 계산기

Leave Comment

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다