기저율 무시의 오류

  '모든 A가 B인 건 아니지만 모든(혹은 대부분) B는 A다'가 


그 자체로는 통계학적으로 별다른 혹은 아무런 의미가 없다는 걸 보여주는 오류라고 할 수 있다.



(어떤 질병 C의 판정 검사의 신뢰도는 대략 99.9%라고 하자. 우리나라 인구는 대략 5,000만 명, 질병 C의 감염자의 수는 약 1,000여 명이라고 하자. 우리나라 사람들이 모두 검사를 받는다면 결과는 어떻게 나오게 될까? 우선 감염자 1,000명 중 99.9%인 999명은 제대로 양성 판정을 받게 될 것이다. 그러나 비보균자 5,000만 명(정확하게는 4,999만 9,000명이지만, 이 계산에서 그것은 중요하지 않다) 중에서 0.1%인 5만 명 정도가 검사상 실수로 양성 판정을 받게 될 것이다. 다시 말해 전 국민 중 양성 판정을 받은 사람 5만 999명 중에서 5만 명은 실제로 비보균자인데 양성이라고 잘못 판정받을 수 있다는 얘기다.

검사의 신뢰도가 99.9%나 되는데 양성 판정을 받은 사람의 98% 이상(5만 999명 중 5만 명)이 실수로 양성 판정을 받은 사람이라니 믿지 못할 계산이겠지만 엄연한 사실이다. 정상인이 감염자보다 훨씬 많기 때문에 비록 0.1%의 오차라도 많은 사람들이 잘못된 판정을 받을 수 있다.  출처: 정재승의 《물리학자는 영화에서 과학을 본다》(1999) 




바꿔말하면 기저율 무시의 오류는 그럴 듯한 설명이 나타내는 특성에 사로잡혀 속성을 나타내는 기저율과 표본의 크기를 무시한 채 대표성이나 표본의 비율에 집착하는 것이다.



좀 더 와닿는 대표적인 예시가 남자가 범죄자에서 차지하는 비율이 높으니 잠재적 가해자라는 것이다. 


검사 신뢰도를 범죄자 비율로 치환하면 이해가 쉽다. 범죄자가 아닌 남성이 압도적으로 많기에 이 말은 그냥 헛소리다.


결국 A에 대해서 의미있는 비판을 할 거라면 A중에 B의 비율이 얼마나 되는지를 입증해야 한다.


문제는 사람들은 자기가 속한 집단이 기저율 무시의 오류로 인해 공격받으면 격렬하게 반발하지만, 자기가 싫어하는 집단에


대해서는 아무 자각 없이 이런 오류를 잘 저지른다는 사실이다.


당신이 누구든 상관 없이 일단 이 오류를 저지르지 않으려면 저 A에 보통 인터넷에서 당신이 댓글로 다 죽여야 된다고 적는 집단을 넣어보고

평소에 당신이 근거로 삼는 통계들이 이 오류에 빠진 건 아닌지부터 살펴보자.

Next Post Previous Post
No Comment
Add Comment
comment url