[P값, 통계적 귀류법(?) 의 핵심적 도구]
컨텐츠 정보
- 3,771 조회
- 6 댓글
-
목록
본문
임상시험 P값에 대한 글인데 정리가 잘 되어 있어 가져와봤습니다.
어렵다고 느끼신다면 빨간색 글만 보셔도 좋습니다.
최근 셀트리온 2상 결과에 대해 짤막하게 글을 올렸는데, 자료의 중간 출처인 엠팍 불펜에 가서 '셀트리온'을 키워드로 검색을 해 보니 꽤 많은 글이 나왔습니다. 치료제 개발에 대한 많은 사람들 (아마도 그 중 다수는 주주들?) 의 관심이 높다는 것을 실감할 수 있었습니다. 그런데 임상 결과에서 P값이 차지하는 비중이 높다 보니, 이에 관한 덧글도 꽤 많았는데 상당수가 부정확한 내용을 담고 있었습니다. 그래서 오늘은 이것에 대해 설명해볼까 합니다. 지금까지 페이지에서 했던 이야기와 상당 부분 중복되겠습니다만, 지나가면 잊혀지니 '쿨타임' 이 되면 한 번씩 쓸 필요가 있는 것 같습니다. 물론 어떤 분께서 언급하셨다시피, 핵심은 '산 사람들'과 '안 산 사람들' 사이의 대립인지는 모르겠습니다만, 그래도 이 글이 P값 관련 오해 불식에 조금이라도 도움이 되기를 바라면서 씁니다.
참고로 이 글은 통계에 대한 지식이 별로 없는 일반 대중을 독자로 상정하고 작성했기 때문에, 다소의 단순화가 개입되었음을 미리 밝혀 둡니다. 이야기는 P값이 사용되는 맥락인 '통계적 가설검정'이 무엇인지 설명하는 것으로부터 출발합니다.
- '통계적 가설검정'이란?
P값은 과학자들이 특정 가설이 맞는지 아닌지 '통계적으로' 검정 (test) 할 때 사용하는 수치입니다. 따라서 P값에 대해 이해하려면 통계적 가설검정이 어떻게 작동하는지부터 먼저 이해해야 합니다. 핵심은 다음과 같습니다. 어떤 과학적 가설 - 임상시험에서는, 신약이나 백신이 효과가 있다는 주장 - 을 통계적으로 입증하려 할 때, 과학자가 실제로 하는 것은 가설이 맞다고 직접 주장하는 것이 아니라, 가설이 틀렸다는 주장을 반박하는 것입니다. 여기서 과학자의 가설이 틀렸다는 주장, 예를 들어 신약이나 백신이 전혀 효과가 없다는 주장을 '영가설' 또는 '귀무가설'이라고 부릅니다. 가설검정의 목표는 이 영가설을 기각함으로써, 효과가 '있다' 라고 주장하는 가설 - '대안가설'이라고 부릅니다 - 이 옳다고 주장하는 것입니다. 다소 간접적인 방법처럼 보일 수 있는데, 사실입니다. (P값을 이용한) 통계적 가설검정에서 대안가설은 직접 입증되는 것이 아니라, 영가설을 반박함으로써 간접적으로 입증됩니다.
- P값이란?
P값은 영가설을 테스트 - 사실상 기각 - 하기 위해 계산하는 값입니다. 여기서 영가설을 기각하는 논리는 일종의 귀류법이라고 생각할 수 있습니다. 귀류법에서는 전제가 맞다고 우선 가정하고, 그로부터 모순이 따라나옴을 보임으로써 결국 전제가 틀렸다고 주장하죠? 영가설을 기각하는 것도 비슷한 논리 구조를 갖고 있는데, 그것이 확률적이라는 게 다소 다릅니다. 그리고 확률적인 것이기 때문에, 논리학이나 수학에서의 귀류법과 달리 이 통계적 귀류법(?) 은 필연적으로 맞는다는 보장이 없습니다. 구체적인 절차는 다음과 같습니다.
- 귀류법에서와 마찬가지로, 영가설이 일단 참이라고 가정합니다.
- 영가설이 참이라는 가정 하에, 영가설과 자료 사이에 '모순'이 있는지 살핍니다. 즉 영가설이 참이라고 가정했을 때, 관측될 만한 자료인지 아닌지를 살펴봅니다. 자료가 영가설 하에서 얼마나 '극단적인지'를 살핀다고 할 수도 있을 것입니다. 너무 극단적인 자료가 관측됐다고 판단하면, 영가설과 양립 불가능한 것으로 간주하고 영가설을 기각합니다.
- 관측된 자료가 얼마나 '극단적인지'는, 영가설 하에서 관측 가능한 자료들 중 실제로 관측된 것만큼, 또는 더 '극단적'인 것들이 얼마나 있는지를 보면 알 수 있습니다. 비유하자면 다음과 같습니다. 초등학생인데 벌써 키가 175cm인 학생이 있다고 합시다. 그러면 이 학생의 키가 얼마나 '극단적'인지는 어떻게 알 수 있을까요? 한 가지 가능한 방법은 이 학생의 키의 '등수', 또는 백분율을 살펴보는 것입니다. 만약 전교에 100명이 있는데 이 학생보다 키가 더 큰 학생이 2명밖에 없다고 합시다. 그러면 이 학생은 100명 중에 3등입니다. 키가 '극단적'이기로는 상위 3% 안에 드는 것입니다. 여기서 3%, 또는 0.03이라는 값 자체를 이 학생의 키가 '극단적인 정도'의 척도로 삼기로 합시다.
- 마찬가지 요령으로, 영가설 하에서 자료가 얼마나 '극단적인지'를 계산하려면, 영가설 하에서 가능한 자료들을 극단적인 순서대로 늘어놓았을 때, 그 중 관측된 자료가 몇 등인지 알아보면 될 겁니다. 그리고 이것은 '관측된 자료만큼, 또는 그보다 더 극단적인' 값의 비율을 계산함으로써 얻을 수 있습니다.
- 이것이 바로 P값의 정의입니다. P값은 영가설이 참이라는 전제 하에 (중요!) 관측된 자료의 등수, 즉 실험으로부터 관측된 자료만큼, 또는 더 극단적인 자료의 비율을 의미하는 것입니다. 여기서 뒤의 '자료'가 의미하는 것은, 영가설이 참이라는 가정 하에 관측 가능한 모든 가상적 자료의 분포를 의미하는 것입니다. 일종의 가능세계나 평행세계 같은 개념이라고 생각하셔도 좋습니다.
- P값은 관측된 자료만큼, 또는 더 극단적인 자료의 비율을 의미하므로, P값이 작다는 것은 우리가 갖고 있는 자료보다 더 극단적인 녀석을 찾기가 힘들다는 것을 의미합니다. 이게 무슨 뜻일까요? 우리가 갖고 있는 자료 자체가 극단적이라는 의미입니다. 이런 말을 떠올리면 이해하시기 쉬울 겁니다. "직장에 당신 말고 이상한 사람이 없다고 느낀다면, 당신이 바로 그 이상한 사람일 가능성이 높다."
- P값이 0.05라는 것은, 영가설이 참이라고 가정했을 때, 우리가 관측한 자료는 극단적이기로는 상위 5%에 해당한다는 것입니다. 물론 P값이 0.05보다 작으면 그 순위는 점점 더 올라갈 것입니다.
- 이런 극단적인 자료가 발견되면, 우리는 자료와 영가설이 양립하기 힘들다, 즉 애초에 영가설이 옳다고 가정했던 전제가 잘못되었다는 결론을 내리고, 영가설을 '기각' 합니다. 귀류법에서 전제와 양립하지 못하는 결과가 따라나오면 전제를 버리는 것처럼 말이죠.
정리하면 다음과 같습니다.
- 통계적 가설검정은 일종의 '통계적 귀류법'이다.
- P값은 영가설을 기각하기 위해 계산하는 값으로, 영가설이 참인 평행세계에서 우리가 갖고 있는 자료가 얼마나 극단적인지를 계량화한 값이다.
- P값이 작다는 것은 관측된 자료가 영가설이 참인 평행세계에서 관측되기 힘들다는 것을 의미하며, 따라서 (아마도) 영가설이 참이 아니라는 것을 암시힌다.
그리고 몇 가지 오해들에 대해 설명하겠습니다.
- 0.05라는 숫자는 편의상 설정된 것으로, 그래야 할 아무런 필연적 이유가 없습니다. 이건 과학자 사회에서 통상적으로 사용하는, 일종의 약속 같은 거라고 생각하시면 됩니다. 그래서 P값이 0.05보다 작으면 효과가 있고, 크면 효과가 없다 식으로 이분법적으로 생각하는 것에는 필연적인 근거가 없습니다. 참고로 0.05라는 문턱값을 통계학에서는 '유의수준'이라고 부릅니다.
- P값은 자료가 '우연히 관측되었을 확률'이 아닙니다. 확률적 세계관에서, 모든 자료는 '우연히' 관측됩니다. 필연적으로 관측되는 자료 같은 건 없습니다.
- 지금까지 설명한 바에 따르면, P값은 '적어도 실제로 관측된 자료만큼 극단적인' 자료가 특수한 가정 하에서 관측될 확률이기 때문에, 가설 자체가 참일 확률과는 직접적인 관계가 없습니다. 따라서 P값이 영가설이 참일 확률을 말한다는 주장은 완전히 틀린 설명입니다.
- 0.05와 0.06이라는 P값 사이에도 마찬가지로 절대적인 차이가 있는 것은 아닙니다. 상위 5%와 6% 사이에 신적인 존재가 그어놓은 경계선 같은 게 있을까요? 혹자는 이것을 '통계적 유의함과 유의하지 않음 사이의 차이는 통계적으로 유의하지 않다' 라는 어려운 말로 표현하기도 합니다.
- P값은 자의적인 기준이기 때문에, 3상을 진행할 것이냐, 또는 치료제를 승인할 것이냐 등의 의사결정을 P가 0.05보다 크냐 작으냐 만을 가지고 결정하는 것은 굉장히 위험한 발상입니다. 이를 고상한 말로 '통계적 유의성과 실용적 유의성은 다르다' 라고 표현합니다 (statistical significance vs. practical significance).
마지막으로, 지금까지의 설명을 바탕으로 최근 셀트리온 2상 결과를 다시 이야기해 보면, p=0.0418이라는 수치는 '치료제가 아무런 효과가 없다고 가정했을 때, 셀트리온이 얻은 자료는 가능한 모든 자료들 중 극단적이기로 상위 4.18%' 를 의미하는 것으로 해석할 수 있습니다. 그리고 앞에서 이야기했던 대로, 이 자료는 영가설이 참이라면 관측되기 힘든 자료기 때문에 우리는 영가설, 즉 치료제가 효과가 없다는 주장을 기각할 수 있다는 것입니다 (단, 우리가 5%라는 극단값의 기준에 동의한다면 말입니다).
P값에 대해 정확히 이해하는 것은 어려운 일입니다. 하지만 많은 사람들의 이목이 집중된 사안에 관련하여 오정보가 담긴 덧글이 만연한 것 같아 정리 차원에서 다시 한 번, 되도록 많은 사람들이 이해할 수 있게 P값에 대해 써 보았습니다. 수학적 디테일을 배제하려다 보니 다소 과도하게 단순화된 지점이 있을 수도 있지만, 일반 독자의 이해를 돕기 위한 장치라 이해해 주시면 감사하겠습니다.
관련자료
윈디님의 댓글
https://www.pharmnews.com/news/articleView.html?idxno=102166
이글중에
앞서의 전문가는 “표본 데이터 자체가 너무 적다. 중증으로 가는 환자가 너무 적어 통계적으로 의미 있다고 하기 어렵다”며 “전체적으로 봤을 때 치료제 투여군 204명 중 9명이 중증으로 악화된 것과, 대조군 103명 중 9명이 중증이 된 것을 비교해 54% 감소했다고 말하고 있는 것인데, 표본이 너무 적어 결과가 유효하다고 단정하기가 어렵다”고 말했다.
이런글이 있던데 결국 표본이 적었고 p값의 데이터도 증상에 따라 공개하지 않은 것도 있어 발표한 효과치를 믿기 어렵다. 라는 이야기인것 같은데..잘 이해했나 모르겠네요.
어지러운 내용으로 추천드리고 도망갑니다!ㅎ