[수학] 다크 데이터

2021. 10. 18. 18:39 | Posted by 꿈꾸는코난

< 다크 데이터 > | 데이비드 핸드 지음 | 노태역 옮김 | 더퀘스트

 

우리는 데이터의 홍수시대에 살고 있다. 그리고 그 데이터를 어떻게 잘 활용하느냐에 따라 생활의 간편함을 넘어 새로운 비즈니스 기회가 생기기도 한다. 온라인 쇼핑몰에서 관심있는 물건 하나를 선택해서 보게 되면 여러 SNS에서 관련된 광고가 꼬리를 물고 화면을 가득 채운다.

대부분 사람들은 자신이 모르는 데이터가 만들어지고 전달될 것이라고는 잘  생각하지 않는 것 같다. 의도하지 않고 데이터가 외부로 흘러갈 수도 있지만 어떤 데이터인지는 대략 짐작할 수 있다고 생각한다. 또한 데이터베이스에 무수히 쌓여 있는 데이터를 통해 우리는 항상 유용한 분석을 할 수 있다고 믿는다. 하지만 다크데이터라고 언급되는 데이터를 보면 실제로 그렇지 않다는 것을 알게 된다.

다크데이터는 우리가 알고 있지만 빠진 데이터, 또는 우리가 알지 못해서 빠진 데이타를 지칭하는 것으로 생각할 수 있다. 물론 다크데이터는 훨씬 복잡한 경우를 포함한 데이터이지만 쉽게 생각해 보면 이 두가지를 대표적으로 생각할 수 있다.

다크데이터는 우리가 모르고 지나치는 데이터로 간과하기 싶다. 하지만 이 다크데이터때문에 다양한 정책 데이터가 왜곡되고 잘못된 방향으로 전환될 수 있다. 또한 다크데이터를 악의적으로 이용하여 범죄에 활용될 수도 있다. 따라서 다크데이터에 대한 존재를 이해하는 것이 필요하고 데이터를 활용할 때에도 다크데이터에 대해 유심히 살펴봐야 한다.

책은 크게 2부분으로 나뉘어 있다. 앞부분에서는 다크데이터에 대한 정의와 함께 다크데이터가 어떻게 만들어지는지, 그리고 다크데이터로 인한 결과가 어떻게 달라지는지에 대해 소개한다. 뒷부분에서는 다크데이터를 제대로 활용하는 방법에 대해 설명한다. 잘 생각해보면 다크데이터는 현실적으로 존재할 수 밖에 없는 데이터이다. 그렇다면 다크데이터를 무조건 배척할 것이 아니라 제대로 인지하고 활용하는 방법을 찾는 것이 더 도움이 될 것이다.

특히 7장에서 언급하는 다크데이터와 과학 부분은 유독 관심이 많이 간 파트이다. 검증 체계로서의 과학이지만 그 당시에는 기술적인 한계로 알지 못한 부분때문에 잘못 해석하거나 제대로 통제되지 않은 환경에서의 시험 등은 다크데이터의 중요성을 다시 한번 설명해 준다. 여기에 더불어 과학자들이 고의적으로 저지른 기만 행위도 다양한 범주로 나눌 수 있다: 날조, 위조, 다듬기, 쿠킹 등.

 


데이터를 그 자체로 의미가 있지만 분명 위험성은 존재한다. 따라서 이 위험성을 인지하고 조심해야 할 부분을 제대로 알고 있어야 한다. 특히 다크데이터를 제대로 확인하고 잘못된 부분을 고치는 노력이 꾸준히 이루어져야 하며, 이를 통해 다크데이터를 유용하게 활용할 수 있는 상황을 잘 알아야 될 것 같다.

우리는 끊임없이 경계하며 자문해야 한다. "우리는 무엇을 놓치고 있는가?"