1. 데이터 과학자로서 필요할 역량은 통계학, 선형대수학, (약간의) 프로그래밍(파이썬 혹은 R), 그리고 특정 산업에 대한 이해도 입니다. 통계, 선형대수학, 프로그래밍은 (쉽지는 않지만) 노력으로 극복할 수 있습니다. 그런데 특정 산업 도메인에 대한 이해는 실무 경험 없이 습득하는데 한계가 있습니다. 그러므로 통계학이나 컴퓨터공학을 전공하지 않았다고 열등감을 갖을 필요가 전혀 없습니다. 특정 산업의 현업 전문가가 계량적 분석 도구(통계, 수학, 프로그래밍)에 대한 이해도를 갖춘다면 천하무적이 될 것입니다.
2. 아래 사진의 책 순서대로 학습하면 데이터 과학자로서 요구되는 데이터 마이닝Data Mining 역량을 갖출 수 있습니다. 그것도 상당히 높은 수준의 역량을 말입니다. 처음부터 욕심 낼 필요 없이 기초통계와 회귀분석/상관분석 정도만 학습해도 충분합니다. 노란색 책(비공전공자를 위한 통계방법론)만 반복해서 읽어도 임계점 수준까지 갈 수 있습니다.
3. 코딩을 할 줄 알아야 합니다. 프로그래밍 언어로 파이썬이나 R 둘 중에 하나를 선택하면 됩니다. 만약 둘 다 해본 경험이 없다면 파이썬을 추천합니다. 코딩을 배우기 전에 데이터 마이닝을 학습하고 싶다면 jamovi를 추천드립니다. 코딩 없이 데이터를 분석할 수 있습니다. 단순히 데이터 분석만이 목적이라면 코딩 학습할 필요 없이 jamovi 만으로도 충분합니다. 처음이 어렵지 파이썬도 어렵지 않습니다.
4. 그렇다면 수학은? 선형대수학을 이해해야 합니다. 선형대수학을 이해하려면 행렬과 벡터(그리고 미적분)를 이해해야 합니다. 문제 풀이를 위한 학습이 아니라 개념적 이해를 위한 학습이기 때문에 인내심만 있다면 누구나 할 수 있습니다.
5. 지난 4년 간, 데이터 과학 학습을 위해 투자한 금액이 5천만원 정도 되네요.... 참 많은 시행착오를 한 것 같습니다. 책이랑 인터넷 강의면 충분한데 말이죠.
장기적으로 보고 꾸준히 학습한다면 어느 순간 상당한 진입장벽을 갖춘 업계 전문가가 될 수 있습니다. 다양한 분야를 학습해야 하고 세상이 계속 변하기 때문에 평생 학습한다는 마음가짐으로 해야 합니다. 그리고 어느 누구도 모든 영역을 압도적으로 잘 하는 것은 불가능합니다. 결국에는 팀으로 일해야 합니다.