‘가짜 데이터 과학자’를 구분하는 8가지 특징
이진영
gina1404@codingworldnews.com | 2019-08-20 17:49:41
데이터 과학자는 최근 가장 매력적인 직업 중 하나이다. 그래서인지 실제로 기술을 가지고 있지 않더라도 스스로를 ‘데이터 과학자’라고 부르려는 사람들이 많다. 많은 사람들이 단지 그들이 ‘데이터를 다루기 때문에’ 스스로를 데이터 과학자라고 부르는 경우가 많다. 이것은 데이터 과학자를 고용하려는 사람들이 진짜 데이터 과학자를 분별하는 것을 어렵게 만드는데, 진짜 데이터 과학자와 가짜는 어떤 차이점을 가지고 있을까?
가짜 데이터 과학자를 구분하기 위해선 고용자가 데이터 과학자, 데이터 분석가, 데이터 엔지니어 등에 대한 차이점을 파악하고, 올바른 질문을 하는 것이 중요하다. Analytics India Magazine은 가짜 데이터를 구별하는 8가지 특징에 대해 소개했다.
1. 기본적인 통계 개념에 대한 지식이 없는 경우
데이터 과학자를 지망하는 대부분의 사람들은 통계와 머신러닝에 대한 심화 개념을 학습하는 경향이 있다. 하지만 기본적이 통계 기법에 대해서는 미숙하다. 실제 데이터 과학자의 경우 clockwork와 같은 기본적인 통계 개념을 알고 있을 것이다. 가설 검사나 회귀 분석, 이단성 및 확률 분포와 같은 개념을 질문해 보면 그 차이점을 확인할 수 있을 것이다.
2. 데이터 베이스를 이해하지 못하는 경우
통계는 데이터 과학의 일부분이다. 반면 애플리케이션은 실제 데이터 베이스에서 일어나며, 그곳에서 진짜 데이터 과학자인지가 명확히 드러날 것이다. 테이블 결합, 데이터 베이스 쿼리를 가져오는 방법과 같은 개념을 테스트하면 지원자의 강점을 바로 파악할 수 있을 것이다.
3. 코드를 모르는 경우
데이터 과학은 통계, 프로그래밍, 비즈니스 애플리케이션 등 여러 기술의 결합이다. 통계학자가 데이터 과학자가 될 수 있다. 하지만 비즈니스 환경에서 통계를 적용하는 방법을 익히기 전에는 불가능하다. 즉, 코딩은 데이터 과학자에게 필수적인 요소이다. 최소한 R 또는 파이썬 코딩을 할 줄 알아야 문제에 통계 개념을 적용할 수 있지 않은가?
4. 지원자가 비즈니스 적용(business application)을 이해하지 못하는 경우
비즈니스 적용은 데이터 과학에서 필수적인 요소이다. 실제 데이터 과학자들은 비즈니스 문제에 통계 기법을 적용하는 방법을 알고 있는 반면, 단순한 통계학자나 비데이터 과학자들은 이를 이해할 수 없을 것이다. 마켓 바스켓 분석, 코호트 분석, churn 분석, 마케팅 믹스 모델링과 같은 개념을 테스트하거나, 지원자에게 사업상의 문제를 던져주고 데이터 과학을 이용해 해결해달라고 요구해보아라. Python이나 Hadoop을 알고 있는지 물어보는 것보다 사용 사례에 대한 구체적인 질문을 하는 것이 진정한 데이터 과학자를 식별하는 데에 더 효과적일 것이다.
5. 문제해결 능력을 갖추지 못한 경우
문제해결 능력과 분석능력은 데이터 과학자의 필수 기술이다. 면접 과정에서 이러한 능력을 보여주지 못한다면 진정한 데이터 과학자라고 할 수 없을 것이다. 데이터 과학자들은 사람들이 어떻게 생각하고 행동하는지를 판단하기 위해 특정한 방법으로 문제 해결을 진행한다.
6. 지원자를 나타내는 프로젝트가 없는 경우
지원자가 보여주는 프로젝트의 유형과 퀄리티는 그 사람의 배경을 나타내는 표시이다. 그런데 프로젝트를 판단할 때 얼마나 복잡한지 살펴보기보다 비즈니스에 진정한 영향을 미칠 수 있는지에 대해 살펴봐야 한다. 대부분의 ‘비데이터 과학자’들은 그들이 해온 프로젝트들이 얼마나 복잡했는지를 보여주는 경향이 있는데, 대부분의 문제들은 간단한 솔루션으로 해결될 수 있는 경우가 많았다. 프로젝트를 확인할 때에 그 프로젝트가 비즈니스에 어떤 영향을 미쳤는지, 어떻게 구현되었는지, 기존의 프로세스를 어떻게 변경했는지에 대해 질문해라.
7. 지원자가 올바른 질문을 하지 않는 경우
면접 과정에서의 상호작용과 지원자의 질문을 통해 진짜 데이터 과학자인지를 구별할 수 있다. 훌륭한 데이터 과학자는 회사에 대한 질문, 데이터 수집 방법, 팀의 구조, 사용하는 툴과 소프트웨어에 대한 회사의 예산 등에 대해 질문할 것이다. 반면 가짜 데이터 과학자의 경우 이러한 구체적인 질문을 내놓을 만큼 충분히 준비되어있지 않을 수 있다.
8. 쇼케이스 및 네트워킹 부족한 경우
이는 결정적인 요소는 아니지만, 지원자를 판단할 수 있는 핵심 지표 중 하나가 될 수 있다. 데이터 과학자가 LinkedIn과 같은 소셜 네트워킹 사이트에서 다른 데이터 과학자들과 연결되어있는 것은 너무 당연하다. 해당 분야에 대한 네트워크가 너무 적다면 가짜일 가능성이 있다. 또한 데이터 과학은 어려운 기술이기 때문에 대부분의 데이터 과학자들은 해커톤 등을 통해 그것을 보여주고 싶어 한다. 결정적인 요인은 아니지만, 지원자가 해커톤, 워크샵, 컨퍼런스 등에 참석했는지 확인해보는 것이 좋다.
[ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]