'나는 리뷰어다'에 해당되는 글 1

  1. 2022.11.25 [IT] 파이썬 라이브러리를 활용한 텍스트 분석

< 파이썬 라이브러리를 활용한 텍스트 분석 > | 젠스 알브레히트 외 2인 지음 |

심상진 옮김 | 한빛미디어

 

요즘 데이타분석이 다양한 영역에서 각광을 받고 있다. 비단 IT 분야가 아니더라도 다양한 분야에서 다양한 데이타를 가공해서 원하는 데이타를 만드는 것이 중요한  시대가 되었다. 점점 데이타분석 능력이 중요한 시대이며 이에 따라 다양한 도구를 사용하여 데이타를 분석하고 있다. 값비싼 제품을 사용하면 좋겠지만 일반인이 데이타분석을 경험하기 위해 비용을 지불하고 사용하기는 어려울 수 있다. 이를 대신해 무료로 사용되는 도구와 라이브러리를 활용해 직접 해볼 수 있다면 좋은 대안이 될 수 있다고 생각한다.

이 책은 텍스트 분석 문제를 파이썬 생테계를 활용해 효율적으로 해결하는 방법을 알려준다. 하지만 책을 읽는 독자는 Pandas와 같은 기본 라이브러리를 비롯한 파이썬에 대한 기본 내용을 알고 있어야지만 텍스트 분석 및 머신러닝과 같은 개념을 제대로 소화할 수 있다. 즉 파이썬 경험이 없는 사람은 사전에 파이썬을 공부할 필요가 있으며 관련된 라이브러리에 대한 경험도 어느정도 할 필요가 있다. 하지만 어느정도 지식이 있다면 전반적인 내용을 이해하기는 그리 어렵지 않다. 또한 제공된 코드를 따라 실행하면 눈에 보이는 결과가 도출되기 때문에 훨씬 개념적으로 파악하기도 쉬운 부분이 있다.

이 책은 13개의 장으로 구성되어 있다. 텍스트 데이터에 대한 통찰을 얻는 것으로 시작해서 API로 추출하는 텍스트의 통찰, 그리고 웹 사이트 스크래핑을 통해 데이타를 추출하는 개념과 방식을 설명한다. 이 모든 과정에서 직접 데이타를 수집하고 분석하고 결과를 도출하는 과정을 단계 단계 쫒아가면서 테스트해볼 수 있다. 이어지는 장에서는 통계 및 머신러닝을 위해 필수적인 데이터를 준비하는 방법과 구문 유사성을 분석할 수 있는 모델을 여러가지 제시한다. 텍스트 분류 알고리즘과 이를 이용한 텍스트 분류기, 그리고 머신러닝 학습 방법 중의 하나인 비지도 학습을 통한 토픽 모델링 및 클러스터링에 대해 자세히 설명한다. 또한 텍스트에 대한 요약이나 의미 관계 분석, 감성 분석 등 텍스트 분석을 이용한 다양한 접근 방법과 모델에 대해 잘 설명하고 있다.

 


실제 사례를 기반으로 상황에 맞게 설계한 텍스트 전처리 파이프라이닝 구축, 텍스트 벡터화 등 다양한 전략으로 텍스트 분석 및 자연어 처리 과정을 설명하고 있어서 텍스트분석에 경험이 없더라도 각자가 원하는 형태로 가공해서 활용하기 좋은 참고 자료가 되는 것 같다. 이론적인 개념도 잘 설명되어 있지만 실제 따라하면서 결과를 볼 수 있다는 점이 이 책의 큰 장점이라고 생각한다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

이전 1 다음