본문 바로가기
주제별 글모음/과학자의 시선

통계와 존재 그리고 생각의 오류

by 격암(강국진) 2018. 10. 26.

18.10.16

우리는 보통이라는 개념에 익숙하다. 그래서 누군가가 나는 보통사람이라고 말하면 그 의미를 안다고 생각한다. 우리는 어떤 집단을 대표하는 이름에도 익숙하다. 그래서 누군가가 인간이라고 말하면 우리는 그게 무슨 의미인지 안다고 생각한다.  좀 더 딱딱하게 말하면 우리는 보통사람이라던가 인간이라는 것이 현실에 존재하는 실체라고 믿는다. 하지만 정말 그럴까?

 

보통이라는 개념은 알고보면 아주 애매하다. 보통이란 여러 사람, 여러 개체가 있는 집단에 대해서 쓰는 개념이다. 즉 보통 사람, 보통 개, 보통 날씨 같은 것이다. 하지만 보통이란 말에는 통계적 가정이 들어가 있다. 그리고 이 통계적 가정을 생각하다보면 우리는 우리가 심각한 사고의 오류를 일으키고 있는 것이 아닐까하고 생각하게 된다. 

 

우리가 보통이라는 말을 쓸 때 우리는 의식적으로 혹은 무의식적으로 그 집단을 대표하는 어떤 평균적인 존재가 있다고 생각한다. 이것은 다시 말해서 세상을 신호와 노이즈의 관계로 파악하는 것이다.  예를 들어 우리가 뭔가를 보거나 들을 때 우리는 우리가 보고 듣는 것만을 보고 듣지 않는다. 우리가 피아노 소리를 들을 때 우리는 온갖 다른 소음들과 함께 그 소리를 듣고 다른 사람과 대화를 할 때도 상대방의 목소리 이외의 많은 소리를 듣는다. 우리는 신호는 중요하고 노이즈는 중요하지 않다고 생각하며 신호를 명확히 인식하기 위해서 노이즈는 억누를 필요가 있다고 생각한다. 그렇게 얻은 신호가 우리의 인식결과가 되고 우리는 그 것을  '세상에 실존하는 것'이라고 믿는 것이다. 

 

 

위의 그림은 앞에서 말한 것을 보여준다. 우리는 signal이라는 글자를 노이즈속에서 보게 된다. 노이즈가 신호보다 약하면 그걸 보기가 쉽고 그 반대면 신호를 보기 어렵지만 어떤 쪽이든 우리는 우리의 감각신호를 신호와 노이즈의 합으로 본다는 면에서 마찬가지다. 그리고 물론 우리는 노이즈의 양에 상관없이 signal 이라는 신호가 세상에 항상 존재한다고 결론내린다. 

 

이와같은 상황을 보다 정량적으로 잘 보여주는 분포가 바로 유명한 가우스 분포다.  

 

 

통계에서 종종 가우스 분포의 중심은 우리가 보려는 실체 혹은 진실에 대응한다. 그리고 그 주변의 값들은 그 진실값에 노이즈가 포함된 것으로 여겨진다. 예를 들어 우리가 목성의 위치를 알고 싶은데 우리가 그것을 세 번 측정했다고 하자. 우리는 대개 그 값들이 각각 다르다는 것을 발견한다. 측정할 때 생기는 노이즈 때문이다. 그럴 때 우리는 그 측정값들의 평균을 고려하고 그것이 진짜 목성의 위치와 가깝다고 생각하는 것이다. 이때 우리가 가정하는 것은 노이즈의 분포가 위에서 보여준 가우스같은 대칭형 구조를 따른 다는 것이다. 사실 유명한 중심극한정리에 따르면 많은 독립적인 노이즈가 더해질 때 그 합은 가우스 분포를 따른다. 그래서 가능한 많은 대칭형분포중에서 우리는 가우스 분포를 유독 중요한 것으로 여기게 되었다. 가우스 분포는 평균값과 노이즈의 양을 말하는 분산이라는 두가지 변수에 의해서 완전히 결정된다.  

 

진짜 존재는 신호와 노이즈의 합같은 거라는 생각은 그 연원이 아주 오래되었다. 플라톤의 이데아론도 바로 이것이다. 플라톤은 이데아의 세계에는 이상적인 말이 있고 이상적인 고양이가 있으며 현실에 존재하는 것은 그것의 부정확한 복사들같은 것으로 생각했다. 세상에는 불완전한 원들이 있고 진짜 원인 수학적 원은 수학공식에만 있는 거나 마찬가지다. 즉 현실을 신호와 노이즈의 합으로 생각하고 진정한 존재는 그 신호라고 생각한 것이다.  

 

그런데 이렇다면 우리는 일상생활에서 언제나 평균값 (mean)이라는 것을 써야 할 것같은데 사실은 요즘에는 중간값 (median) 이라는 것을 사용하는 경우가 아주 많다. 평균과는 좀 다른 중간값이란 주어진 여러 측정값을 순서대로 늘어놓았을 때 순서상 중간에 오는 값을 말한다. 1, 2 그리고 117의 평균값은 40 (40 = (1+2+117)/3)이다. 그러나 중간값은 2다 (늘어놓을 때 두번째 값이 2니까).  

 

평균값이 아니라 중간값을 쓰는 이유는 평균값을 써봣더니 극단적으로 큰 데이터 하나가 전체 평균을 바꾸는 일이 자주 있었기 때문이다. 

 

예를 들어 파레토 분포라고 알려진 아래의 분포를 보자.

 

 

파레토 분포는 사람들의 재산의 분포를 보여주는데 여기서 보면 평균값과 중간값이 크게 다르게 된다. 단순히 평균을 낼 때는 우리는 빌게이츠나 제프 베조스 혹은 이건희나 이재용의 수입을 가난뱅이의 수입과 합쳐서 계산하기 때문이다. 가우스 분포에서는 평균값과 중간값이 같다. 하지만 파레토 분포에서는 전혀 다르다.

 

하지만 평균값과 중간값이 다르다는 사실보다 훨씬 더 중요한 것은 애초에 파레토 분포에서는 가우스 분포처럼 재산의 분포가 어떤 단일한 값의 주변으로 대칭적으로 분포하지도 않는다는 사실이다. 여기서 질문을 한번 던져보자. 애초에 재산의 분포가 위와 같다면 재산의 크기의 측면에서 보통사람이라는 것이 존재하는 것일까? 그렇지 않다. 여기서는 신호와 노이즈의 합이라는 그림이 통하지 않고 따라서 평균값을 쓰든 중간값을 쓰든 보통 사람이라는 것은 애초에 적절한 개념이 아니다. 즉 하나의 집단을 어떤 평균적인 존재로 대표해서는 안된다. 이데아론이 무너지는 상황이다. 

 

그런데도 불구하고 우리는 마치 모든 상황이 신호와 노이즈의 상황인 것처럼 이름을 붙이고 생각을 한다. 하지만 보통 사람이라는 개념이 틀린 거라면 그래서 보통 사람이란 존재하지 않는다면, 평균국민소득같은 수치를 기반으로 한국인의 평균 생활 수준을 논하는게 말이 될까?

 

다시 생각해 보자. 

 

어떤 한 학생은 학교에서 자기 성적이 중간쯤 한다는 사실 혹은 자기 성적이 그 과목의 평균점이나 중간값과 비슷하다는 사실로 부터 자신이 보통 학생이라는 결론을 내린다. 그리고 보통이라는 개념이 의미가 있다는 가정하에 그는 보통 이 학교를 졸업한 학생들은 이러저러한 수준의 소득을 얻게 된다는 기대를 한다. 이게 옳을까?

 

이런 예는 매우 흔한 것이다. 학교가 아니라 마을을 집어넣어도 마찬가지다. 당신은 혹시 나는 이 마을의 평범한 보통 주민이라고 생각하고 있지 않는가? 당신은 혹시 우리 회사에서 나는 평범한 보통 직원이라고 생각하고 있지는 않은가? 당신은 혹시 당신이 평범한 한국인이라고 생각하고 있지는 않은가? 

 

그런데 그런게 실제로 존재하는지 안하는지는 생각해 봤는가? 당신이 고려하고 있는 상황이 가우스 분포가 아니라 파레토 분포같은 것을 따르고 있다면 당신은 큰 오류를 범하고 있는 것이다. 그런 상황에서는 보통 사람이란 유령같은 존재다. 즉 실제로는 존재하지 않는다. 

 

당신이 만약 평범한 보통의 야구실력을 가지고 있다면 당신이 평범한 보통의 프로야구 선수가 되지는 않는다. 당신은 애초에 야구를 가지고는 전혀 수입을 올릴 수 없다. 그리고 생각해 보면 프로야구나 가수, 영화배우나 정치인처럼 극단적인 경우가 아니더라도 오늘날 모든 직업에서 우리는 정성적으로는 같은 결과를 가진다. 당신이 평범한 보통의 머리 자르는 기술을 가졌다면 당신은 미용사로 먹고 살수 없으며 당신이 평범한 보통의 요리실력을 가졌다면 당신은 쉐프로 먹고 살 수 없다. 다시 말해 당신이 평범하다는 사실은 당신이 최악이라는 사실과 거의 같다! 상위 20%나 꼴찌나 거의 같다면 당신은 차라리 꼴찌를 하는게 좋을지도 모른다. 그런 경우라면 당신은 당신이 중간이상이라는 이유로 당신의 위험한 상황에 대해서 긴장도 하지 않거나 무의미한 미련을 가지고 시간과 에너지를 낭비하지 않을 것이기 때문이다. 즉 오늘날에는 어설픈 재능과 노력이 가장 무서운 것이 될 수도 있다. 사실은 자신은 꼴찌와 차이가 없는데 말이다.  

 

우리는 우리가 쓰고 있는 언어가 무의미해 지는 것을 막기 위해 잔재주를 부리기도 한다. 보통 사람이라는 개념이 허구라는 사실을 감추는 한가지 방법은 대상을 나누는 것이다. 그래서 우리는 가난한 계층, 중산층, 부유층 같은 분류를 한다. 하지만 이런 분류는 문제를 해결해 주지 않는다. 문제는 가우스 분포가 아니라 파레토분포가 현실에 가깝다는 것이고 위에서 말하는 그 흔한 분류가 근거가 없다는 것이다. 그렇다면 어떻게 해도 우리가 이런 집단들에 이름을 붙이는 것이 의미가 없고 그런 언어를 바탕으로 치열하게 사고를 해도 그것이 의미있는 결과를 주지 않는다. 세상에는 가난한 사람이 있고 중산층에 속하는 사람이 있으며 부유층에 속하는 사람이 있는게 아니다. 그런데도 우리는 그런 분류와 통계적 오류로 인해 세상에 그런 사람들이 있다는 허구에 빠져든다. 적당히 부유층의 정의를 바꿔서 부자들은 이렇게 산다라는 허구를 만들어 낼 수 있다. 우리가 세상을 가난뱅이와 중산층과 부자라는 세 사람이 사는 마을처럼 상상하는 것은 잘못된 것이지만 우리가 그런 언어에 빠지면 그걸 벗어나기 힘들다. 

 

문제의 심각성은 아직 시작도 되지 않았다. 우리는 이제까지 1차원의 경우만 이야기했다. 그런데 사람은 여러분야의 특징을, 예를 들어 수입, 노래실력, 읽은 책의 숫자, 연애를 해 본 경험, 체력, 외모, 키등등 여러가지 특징을 가지고 있다. 이렇다고 할 때 우리가 실체가 있는 것처럼 말하는 한국인이라던가 학생이라던가 기자라던가 중산층이라던가 하는 말이 정말 의미가 있는 것일까? 

 

예를 들어 사람들의 100미터 달리기 기록은 가우스 분포 같은 것을 따를 지 모른다. 그걸 기반으로 우리는 자신이 평범하다고 생각할 수 있다. 하지만 재산을 기반으로 사람을 다시 보았을 때 누군가는 재벌3세고 누군가는 빈민이라는 사실은 우리가 평범하다는 현실인식을 틀린 것으로 만든다. 

 

중요한 것은 이런 특징들이 분리될 수 있는 것이 아니라는 것이다. 같은 사람의 특징이기 때문이다. 다시 말해 인간들이 가지는 여러가지 특징들중에 어떤 하나의 중요한 특징만 가우스 분포를 따르지 않아도 우리는 더이상 평균을 논할 수 없다.  그렇다면 우리는 이렇게 물어야 한다. 도대체 인간이란 무엇인가? 인간이란게 존재하기는 하는 것인가? 답은 우리가 인간을 어떻게 이해하는가에 달려 있다. 무의식적으로 우리가 인간을 어떤 평균적인 존재로 이해하려고 하고 있었다면 그런 의미에서는 인간은 존재하지 않는다. 마치 인간과 고릴라와 조개라는 세 가지 생명체가 섞여 있는 집단을 부르는 이름이 없는거나 마찬가지다. 

 

현대사회에서는 가면 갈수록 더 많은 것들이 파레토 분포를 따르는 경향이 있다. 가수가 벌어들이는 수입은 현대 기술때문에 극단적으로 달라졌다. 최고의 가수는 전세계로 자신의 노래를 팔 수가 있는데 3류가수는 수입이 전혀 없을 수 있다. 잘생긴 얼굴이나 야구를 잘하는 능력도 가면 갈수록 더 큰 차이를 만들어 낸다. 

 

그런데도 우리는 여전히 낡은 언어를 생각없이 쓴다. 이 세상에는 아주 많은 것들이 있다. 그리고 인간의 말이란 종종 어떤 집단을 가르키는 것이다. 예를 들어 고양이라는 말은 수없이 많은 고양이를 포함한다. 우리는 그 고양이들이 공통적인 특징이 있다고 생각하고 그래서 따로 설명하지 않아도 평균적인 고양이가 있다고 생각한다. 

 

그런데 학부모란 무엇인가, 학교란 무엇인가, 자영업이란 무엇이고, 자동차란 무엇인가. 이데아론이 무너지는 현대에서는 점점 더 단어들이 의미를 잃어간다. 그걸 고민하지 않고 언어를 기반으로 아무리 치열하게 생각을 해도 우리는 현실과는 가까이 갈 수가 없다. 애초에 없는 걸가지고 공상에 빠져 있기 때문이다. 마음대로 그은 선을 조금씩 자리만 옮기면 정반대의 결론도 나오게 만들 수 있다. 통계는 사기라는 말이 떠돈다. 이것은 현대사회가 생각의 오류를 만들기 쉽다는 것을 분명하게 보여준다. 

 

 

댓글