[경제] 모두 거짓말을 한다

2018. 5. 23. 20:37 | Posted by 꿈꾸는코난


< 모두 거짓말을 한다 > | 세스 스티븐스 다비도위츠 지음 | 이영래 옮김 | 더퀘스트


"이 책의 제목은 '모두 거짓말을 한다' 이다. 여기서 의미하는 바는 사람들이 자신의 모습을 더 낫게 보이기 위해서 친구에게, 설문조사에, 스스로에게 거짓말을 한다는 것이다. 하지만 세상 역시 오해의 소지가 있는 불완전한 데이타를 제시하는 방법으로 우리에게 거짓말을 한다. 세상은 우리에게 많은 수의 성공한 하버드 졸업생을 보여주고 성공한 펜실베니아 졸업생은 많이 보여주지 않는다. 그렇게 해서 우리는 하버드에 가는 것이 대단히 유리하다고 생각된다"                                                - p.274 -


제목 그대로 사람들은 모두 거짓말은 한다. 그게 꼭 누군가를 속이기 위한 악의가 아니더라도 자신의 마음을 숨기기 위해서 또는 다른 사람을 의식해서 자신의 생각과 다른 모습을 보이곤 한다. 민감한 설문조사의 경우 더더욱 다른 사람의 생각과 크게 반하지 않게 대답하는 경향이 있다는 것은 많은 사람들이 느끼고 있을 것이라고 생각든다.

최근 영국의 브렉시트와 미국의 트럼프 당선은 그 누구도 예상하지 못한 놀라운 결과라고 생각이 든다. 브렉시트와 트럼프에 표를 던진 사람은 도대체 어디서 나온 것일까? 하지만 이 책에서는 그 결과를 예견할 수 있었다고 말한다.


"구글은 여론조사가 놓친 많은 정보, 특히 다른 어떤 주제보다도 선거를 이해하는 데 도움이 되는 많은 정보를 가지고 있다는 게 더 확실해졌다. 구글 데이타는 누가 실제로 투표하러 나올지 알고 있다. 투표를 하지 않을 사람 절반 이상이 선거 직전의 설문조사에서는 투표를 할 예정이라고 말해서 투표율 예측을 왜곡한다. 반면, 선거 몇 주에 걸쳐 '투표하는 법', '투표장소'가 구글에서 얼마나 검색됐는지 살펴보면 어떤 지역의 투표율이 높은지를 정확하게 예측할 수 있다. ..."                                  - p.21-


공적인 장소, 또는 누군가가 지켜보는 곳에서는 자신의 생각을 정확히 밝히지 않지만 지극히 개인적인 공간, 즉 각자의 컴퓨터나 휴대폰을 이용한 익명의 검색에서는 자신의 생각이 드러나는(판단할 수 있는) 형태를 보인다는 것이다. 이러한 정보를 조합하고 분석하면 설문조사에 드러나지 않은 정보를 수집할 수 있고, 또한 결과를 어느정도 정확하게 예측할 수 있다는 것이다. 

사실 이 부분에 대해서는  상당히 공감이 많이 가는 것  같다. 다만 검색에 대한 결과를 어떻게 수집하고 분석할 수 있는냐가 관건인데 이 책에서는 < 구글트랜드 >를 활용한  사례를 많이 보인다. 다만 정보의 수집과 함께 어떻게 그 정보가 의미를 가지도록 분석하느냐가 매우 중요한 팩트가 된다.


이 관점에서 보면 이전에 읽은 책 < 신호와  소음 >이 떠오른다. 무수히 많은 정보(소음)에서 의미있는 무엇인가(신호)를 알아내고 분석하는 중요성을 언급한 책이다. 우연히 읽은 < 모두 거짓말을 한다 > 에서도 < 신호와  소음 > 이 책에 대한 언급이 있어 이전에 읽은 기억이 새롭게 떠올랐다.


" 이 책을 통해 보여주려는 것은 여타의 것과는 다른 어떤 것이다. 그것을 데이타와 수치를 기반으로 한다. 생동감있고 광범위하다. 데이타가 너무도 풍성해서 그 밑에 있는 사람들을 시각화할 수 있을 정도다. 너무 거창하게 들릴지 모르겠지만 이 책에 등장하는 경제학자와 데이타 과학자들이 단순히 새로운 도구가 아니라 새로운 장르를 만들고 있다고 생각한다. 데이타는 너무도 크고 너무도 풍성해서 아주 가까이 확대해도 어떤 특정한, 대표성이 없는 인간에 국한되지 않으면서 생각을 환기시키는 복합적인 이야기를 전할 수 있다는 점이다"                                                      - p.237 -


여기서 예를 들어 설명하는 < 신호와 소음 >에서 선수의 성적을 예측하는 PECOTA라는 모델은 선수의 도플갱어를 찾아 데이타베이스를 구축하고 선수들에 관련된 일련의 데이타를 모두 수집해서 저장한다. 이를 통해 특정 선수와 유사한 플레이를 했던 도플갱어를 찾고 이 도플갱어의 야구 경력을 분석함으로써 특정 선수에 대한 예측을 하는 것이다. 이러한 도플갱어 찾기는 데이타 클로즈업에 대한 하나의 사례이다. 대상과 가장 비슷한 사람이라는 작은 규모의 부분집합을 확대하는 것이다.


"사람들은 자신과 비슷한 사람들에게 맞춰진 사이트에 숨는다. 인터넷은 뉴스를 소비할 수 있는 거의 무제한적인 옵션을 준다. 원하는 것을 모두 읽을 수 있고 스스로의 생각에만 맡겨두면 사람들은 자신이 믿는 것을 확인해 주는 견해를 찾는다. 이처럼 인터넷은 분명 극단적인 정치적 분리를 만들어 내고 있다. 그러나 이러한 일반적인 이러한 견해와는 다르게 데이타에 따르면 이것이 사실이 아니라는 것이다."        - p.166 -


조사에 따르면 인터넷은 완전한 분리보다는 완전한 비분리에 가깝다. 예를 들어 자유주의자와 보수주의자는 항상 웹사이트에서 서로를 만나고 있다. 그 이유로는 인터넷 뉴스 산업이 몇몇 대형 사이트가 지배하고 있다는 것과, 강력한 정치적 의견을 가진 많은 사람들이 반대 시각을 가진 사이트에 방문하기 때문이다.



USC 버클리정보대학원에 재직중인 앤디 레이건이 이끄는 일단의 과학자들은 책 수천권에 있는 글과 영화 대본을 다운로드 한 후, 이야기의 각 부분이 얼마나 행복하거나 슬픈지를 코드화 했다. 위 그림은 < 해리포터와 죽음의 성물 >의 줄거리 주요 지점에서 분위기가 어떻게 변화하는지를 나타냈으며, 감성 분석으로 감지한 분위기의 고저가 주요 사건과 일치한다는 것을 알 수 있다.


이 책의 마지막은 빅데이타로 할 수 없는 일과 빅데이타로 하지 말아야 할 일을 보여준다. 특히 빅데이타로 할 수 없는 일을 예로 들어 '차원의 저주'를 언급한다. 임의로 충분히 많은 것을 실험하다 보면 통계적으로 유의미한 결과가 하나는 나오게 마련이다. 이러한 '차원의 저주'에 의해 왜곡된 분석 결과가 나오는 사례를 볼 수 있다. 예상했던 대로 빅데이타로 하지 말아야 할 일은 윤리적인 문제로 귀결될 수 있는, 아직 일어나지 않은 일에 대한 빅데이타 분석 결과를 가지고 개개인을 제어하는 사례를 이야기 한다. 쉽게 생각해 보면 영화 '마이너리티 리포트'를 연상해 보면 되겠다.


이 책을 읽으며 빅데이타에 대한 현실성있고 공감할 만한 사례를 보여주는 느낌이 들었다. 대충 이론과 기술을 언급하고 미래의 필요성만 두리뭉실하게 얘기하는 다른 책들과 달리 직접 와 닿는 사례와 따라서 하면 나도 비슷한 결과를 만들어 낼 수 있지 않을까 하는 생각이 들 정도로 현실성이 느껴졌다.


사람들의 심리적인 부분 포함해서 빅데이터에 대해 관심과 흥미가 있다면 꼭 한번 읽어볼 만한 책이라 생각된다.