[IT] 머신러닝을 위한 실전 데이타셋

2021. 2. 8. 13:22 | Posted by 꿈꾸는코난

< 머신러닝을 위한 실전 데이타셋 > | 칼리드 엘 에맘,루시 모스케라,리처드 홉트로프 지음 |

심상진 옮김 | 한빛미디어

 

인공지능과 머신러닝 모델을 구축하기 위해서는 대량의 데이타가 필요하다. 대량의 데이타 또한 양질의 데이타로써 활용할 가치가 있어야 한다. 이를 위해서 합성 데이타가 많은 주목과 관심을 받아 오고 있다. 대량의 데이타를 필요로 하는 NVIDIA, IBM, 알파벳 등과 같은 IT 기업뿐만 아니라 인구조사국 같은 정부 기관도 모델 구축, 애플리케이션 개발, 데이타 배포를 지원하기 위해 다양한 유형의 데이타 합성 방법론을 채택하고 있다.

 

합성데이타는 실제 데이타가 아니라 실제 데이타에서 생성되어 실제 데이타와 통계 속성이 동일한 데이타를 말한다. 따라서 분석가는 합성 데이타셋으로 작업을 해도 실제 데이타에서 얻은 분석 결과와 동일한 분석 결과를 얻을 수 있다. 합성 데이타는 두가지 방법으로 합성할 수 있다. 첫번째는 실제 데이타셋 몇개로 실제 데이타의 분포와 구조를 포착하는 모델을 구축하는 것이다. 모델이 구축되면 합성 데이타는 해당 모델에서 샘플링되거나 생성되며, 모델이 실제 데이타를 제대로 표현한다면 합성 데이타는 실제 데이타와 통계적 특성이 유사하게 된다.

 

두번째는 실제 데이타없이 기존 모델이나 배경지식을 이용하여 생성하는 것이다. 특히 새로 도입된 공정이거나 분석가가 그 공정을 이해하지 못하거나 과거 데이타를 사용할 수 없는 경우, 분석가는 공정에 관련된 변수 간의 분포와 상관관계를 몇 가지로 간단하게 가정하고, 이를 기반으로 합성 데이타를 생성하게 된다.

 

이러한 합성 데이타는 여러 산업에 걸쳐 다방면으로 활용되고 있다. 제조 및 유통, 헬스케어 및 금융서비스, 교통 수단등 우리가 익히 알고 있는 여러 산업에서 사용되고 있다. 실제 데이타 접근이 어려울 경우 합성 데이타는 그 어느 방법보다도 좋은 해결책을 볼 수 있다. 데이타 합성을 비롯해 데이타 접근 시 사용할 수 있는 기술로 개인 정보 보호 강화 기술(PET)이 있다. 데이타 합성은 비지니스 기준을 최적화하는 많은 상황에서 강력한 접근법이다. 데이타 식별 시 개인 정보와 비개인 정보를 식별 가능한 스펙트럼으로 식별해야 한다.

 

데이타 합성이 조직의 우선 순위에 부합하는지 평가하기 위해서는 의사결정 프레임워크를 만들고 가장 적절한 프레임워크를 선택해야 한다. 그리고 이 프레임워크에 따라 프로세스 및 파이프라인을 구현해야하며, 규모에 맞게 구현된 합성으로 프로그램을 관리할 때 실질적으로 다양한 요소를 고려해야 한다.

 

데이타 합성을 위해서는 개별 데이타 분포를 제대로 이해해야 한다. 정규분포, 베이즈 분포, 푸아송 분포, 로그 분포, 이항 분포, 연령 분포, 요인 분포 등 다양한 유형의 분포로 해석할 수 있어야 한다. 이후 실제 데이타를 분석된 분포에 적합시키고, 분포로 부터 합성 데이타를 생성할 수 있어야 한다. 이때 합성 데이타의 분포 적합성을 측정할 수 있어야 하며, 과접합된 분포가 생기는 과적합 딜레마를 파악해야 한다. 그리고 적합하지 않은 임의의 데이타를 배제하는 단계를 수행해야 한다.

 

합성 데이타를 광범위하게 사용하고 채택하게 하려면 합성 데이타가 원본 데이타의 분석 결과와 유사한 분석 결과를 낼 수 있을 만큼 효용성이 높아야 한다. 이를 위해서는 합성 데이타의 효용성 평가가 이루어져야 한다. 이 과정은 작업부하 인식 평가와 일반적인 데이타 효용성 메트릭, 그리고 데이타 효용성의 주관적 평가로 이루어진다.

 

인공지능 및 머신러닝에는 제대로 된 데이타가 필요함을 알 수 있다. 특히 개인 정보의 경우 여러가지 법적인 문제로 인해 실제 데이타를 그대로 사용할 수 있는 경우는 거의 없다고 볼 수 있다. 이런 경우 실 데이타로 부터 가공된 임의의 데이타 또는 실 상황을 반영하는 가상의 데이타를 생성하는 기술이 꼭 필요하다. 이 책을 통해 데이타가 필요한 경우 어떻게 합성 데이타를 만들어 낼 수 있는지 제대로 이해할 수 있다. 또한 만들어진 합성 데이타가 얼마나 효용성이 있는지 평가하고 개인 정보에 관련한 규제를 얼마나 충분히 반영하는지 평가하는 방법도 동시에 얻을 수 있다.

 

기반 지식없이 읽기에는 조금 어려운 느낌은 있지만 관심을 가지고 읽어 나간다면 책에서 말하고하는 핵심 개념 및 방법에 대해서 이해하는데는 문제가 없을 것 같다. 다양한 방법으로 데이타를 합성해서 이용하고자 하는 사람이라면 꼭 한번 읽어볼 필요가 있다고 생각한다.

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

[에세이] 지구 좀 다녀오겠습니다

2021. 2. 4. 13:15 | Posted by 꿈꾸는코난

< 지구 좀 다녀오겠습니다 > | 이중현 지음 | 북스고

 

1년 넘게 코로나가 우리 주변을 맴돌고 있다. 직접적으로 바이러스에 걸린 사람도 있겠지만 내 주변에는 아직 그런 사람들이 없어서 다행이라 생각한다. 하지만 내가 다니는 주변 곳곳에서 확진자가 나오곤 한다.

이런 시국에 여행은 언감생심인것 같다. 하지만 여행에 대한 기대감과 열망은 줄지 않고 마음 한켠에 남아 있는 것 같다. 특히 세계 여행이라면 더더욱 그런 것 같다. 누구나 한번쯤은 세계 일주를 꿈꾸고 버킷리스트에 담아 언젠가 꼭 이루고야 말겠다는 다짐을 하곤 한다.

실제로 그 꿈을 실행에 옮긴 사람이 있다. 그것도 1년이 넘는 기간동안 세계 여행을 하는 것이다. 사실 20대에 가장 듣기 부담스러운 말이 '꽃다운 나이', '가장 아름다운 나이'와 같은 수식어인 것 같다. 자신은 현실의 무게에 눌려 있고 앞이 잘 보이지 않는 막막함 속에 있는데 주변은 마냥 찬란한 시기라고 추켜세우고만 있으니 말이다.

1년 동안의 준비기간을 거쳐 떠난 저자의 새계 여행은 길위에서 만난 사람들인 것 같다. 일반적인 여행 에세이와는 다르게 여행지의 자세한 설명은 거의 나오지 않는다. 각각의 도시로 가는 과정에서 느낀 세세한 감정들, 여행지에서 만난 사람들에게서 느낀 호감과 안간미 등에 대해 많은 공감을 가질 수 있었다.

코로나가 끝나면(제대로 종식이 될지는 모르겠자만) 여행을 다녀 오고 싶다. 여행지에 가서 사진 찍고 다른 여행지로 가는 뻔한 여행말고 그곳에 사는 사람들을 느껴 보고 싶고, 여행지를 넘어가는 경로에서 볼 수 있는 많은 것을 눈에 담고 싶다. 여행이라는 것은, 남들이 다들 가는 곳에 가서 같은 포즈로 사진을 찍는 것이 아니라 나만의 경로로 나만의 숨겨진 추억을 남기는 것이라 생각한다.

실제로 여행 중에 기억에 남는 것은 목적지를 찾지 못해 헤메던 경험, 그리고 그 과정에서 우연히 들어선 골목, 그리고 여행 가이드에 나오지 않는 카페나 식당에서의 경험인 것 같다. 코로나 이후 많은 사람들이 해외로 나갈 것이다. 자신만의 여행을 준비하고 자신만을 추억을 담아오면 좋겠다. 그리고 여행 중 우연히 만난 사람들과의 추억을 소중히 간직했으면 좋겠다.

[에세이] 오늘도 변화무쌍

2021. 2. 3. 18:40 | Posted by 꿈꾸는코난

< 오늘도 변화무쌍 > | 최다빈 지음 | 상상출판

 

누구나 한번 쯤은 일상에서의 일탈을 꿈꾼다. 머리 속으로 생각만 하던 것을 살제 행동으로 옮기면 어떨까 하는 상상속의 나에게 빠져 들곤 한다. 하지만 이내 상상속의 나는 현실의 내가 아니기에, 그리고 상상속의 나는 내가 도전할 수 없는 모습이기에 지례 포기하곤 한다.

살아가면서 자신이 다양한 모습으로 변화되었으면 하는 기대를 품고 있다. 완전히 새로운 일을 한다거나, 일을 그만두고 긴 세계 여행을 한다거나... 기사를 통해 그런 사람들을 보면 부럽기도 하고 그 용기에 탄복하기도 한다. 하지만 그런 변화는 솔직히 시도할 자신도 없고 나와 맞지 않다고 생각한다.

이 책에서는 지극히 소심한 저자가 뷰티 유튜버가 되는 과정을 보여주고 있다. 저자는 어린 시절부터 열심히 하기는 했지만 항상 소심함에 빠져 자신의 생각을 제대로 밝히지 못하고 속으로만 전전긍긍한다. 어린 시절 중국 유학 생활을 거쳐 다시 한국으로 돌아오면서 주변 사람들이 자신만큼 소심한 걱정을 하며 살아가고, 또한 마음만 열면 얼마든지 다른 사람들과 어울려 살아갈 수 있음을 알게 된다.

하지만 일반적으로 남들이 선택하는 취업의 길을 포기하고 유튜버로의 삶을 선택하는 것은 또 다른 요기가 필요하다. 그리고 유튜버로 어느정도 자리를 잡아가는 과정에서도 끊임없이 제대로 살아가고 있는 것인지, 이제라도 남들처럼 취업을 해서 정상적인 모습으로 살아가야하는 것은 아닌지 고민한다. 하지만 그 과정에서 자신의 선택에 대해 자신감을 가지고 묵묵히 헤쳐나가면 자신이 원하는 목적지가 아니더라도 그 중간 언저리쯤에 도달할 수 있을 것이다.

실패가 두려워서 도전하지 않는 사람들을 종종 보곤한다. 모든 일이 마음먹은대로 되지 않을 것이다. 하지만 도전을 통한 실패는 앞으로 나아갈 수 있는 힘을 북돋워주는 것 같다. 실패가 두려워 아무것도 하지 않는다면 아무런 행동도 하지 않기 때문에 아무런 변화가 생기지 않는다. 하지만 실패라도 경혐하면 그 실패를 통해서도 배울 것이 있고 자신을 조금이라도 성장시켜 나갈 수 있다고 본다.

누구든 원하는 목적지에 한번에 도달하는 것은 쉽지 않을 것이라 생각한다. 그렇기 때문에 많은 시도와 경험이 필요한 것 같다. 비록 목적지에 도달하는 것에는 실패했지만 조금은 그 목적지에 가깝게 다가가는 과정이라고 생각한다. 우리가 살아가는 삶은 목적지에 도달하기 위한 끊임없는 여정이고, 많은 시도와 실패를 통해 경험이 쌓여 만들어지는 결과물인 것 같다.

지금 이 순간, 계획대로 되지 않는다고 낙심하지 말고 자기 자신에게 용기를 주는 것이 필요한 것 같다. 그만큼 성장하고 앞으로 나아갈 발판을 마련했기에...