멘토지원
파트너스
현직자 클래스
멘토 찾기
Best 질문답변
데이터 마케팅 독학 How To - 현직자가 추천합니다
우아한형제들 · 데이터사이언스
약 4년 전
💬 멘티의 질문

안녕하세요 멘토님! 졸업까지 두 학기를 앞둔 경영학도 멘티입니다. 데이터를 활용한 마케팅에 관심이 많아 직무 정보를 찾던 중, 잇다까지 흘러들어오게 됐는데요. 여기서 멘토님을 발견하게 돼서 기쁜 마음에 질문을 드립니다.



저는 데이터 기술이 기업과 개인에게 이로운 생활을 제공할 수 있다고 생각합니다. 그래서 데이터 관련 강연, 도서를 찾아보며 꿈을 키워왔습니다. 공모전에도 다수 참여해 여러 번 입상했습니다.


하지만 지금까지 한 활동들은 아이디어 기획 수준에 그쳤고, 기술적인 부분에서는 많이 부족합니다. 게다가 제가 제주도에서 학교에 다니고 있어 오프라인 교육은 참여하기 힘듭니다. 데이터 마케팅 관련 공부를 하기 위해 서울로 갈 생각도 하고 있는데요.



©️Leo_nik


제가 기술적 측면에서 성장하기 위해 어떻게 공부하면 좋을까요? 조언을 주신다면 앞으로 계획을 세우는 데 참고하겠습니다. 감사합니다!

💬 이봉호 멘토의 답변

안녕하세요 멘티님. 데이터 마케팅에 뜻을 품고 이리저리 방법을 찾고 계신 멘티님의 열정에 응원의 박수를 보냅니다. 지방에 살더라도 요즘에는 웹으로 공부하는 방법이 많이 있기 때문에 가능성은 무한합니다.

그럼 어떻게 독학하면 좋을지, 기업에서 요구하는 능력은 어느 수준인지 하나하나 알려드리겠습니다.



©️pixabay


독학으로 파이썬, 판다스, seaborn 공부하기!
먼저 툴을 공부하는 방법에 대해 말씀드리겠습니다. 여기서는 파이썬과 판다스를 중심으로 설명할게요.

먼저
파이썬을 공부하는 가장 좋은 첫걸음은 <점프 투 파이썬>이라는 책을 읽고 따라 하는 것입니다. 멘티님의 현재 수준에선 이 책의 4장까지 공부하는 게 딱 맞을 거예요. 툴을 능수능란하게 다루게 된 뒤에 실제 서비스를 알고리즘에 적용하고 싶다면 4장 이후의 내용까지 공부하면 좋습니다.




다음은
판다스인데요. 판다스는 10 Minutes to Pandas라는 교육자료로 공부하는 것을 추천합니다. 한 번 훑는데 넉넉잡아 이틀이면 충분합니다.



또한, 판다스는 애매한 문법이 많아서 처음에는 원하는 대로 작동하지 않는 편입니다. 특히 파이썬 문법과 미묘하게 호환되지 않는 부분이 많아 우리를 괴롭힐 때가 종종 있죠. 이 부분은 꾸준히 데이터를 다뤄보면 해결되니까 열심히 공부하시길 바랍니다.

판다스 공부 방법으로는 일단 멘티님이 쉽게 쓸 수 있는 데이터를 하나 고른 뒤, 임의의 문제 리스트를 만들어보는 걸 권장합니다. 판다스로 그 문제들을 차근차근 풀어보시면 점차 익숙해지는 본인을 발견하게 될 거예요.



©️freepik


파이썬과 판다스 외에는 Seaborn이라는 툴킷도 있는데요. 여기에는 재밌는 시각화 툴이 많습니다. 하지만 이 중에서 실제로 사용하는 건 countplot, barplot, pointplot, distplot, scatterplot입니다.

이 다섯 가지 시각화 기능에 익숙해지는 게 급선무입니다. 판다스를 공부하는 방법과 동일하게 임의의 데이터를 가져와 원하는 대로 시각화하는 식으로 공부하세요.



인공지능 알고리즘 학습 방법
다음으로 인공지능 알고리즘 학습 방법에 대해 이야기해볼까요? 가장 추천하는 건 Andrew Ng 교수님이 진행하는 코세라의 머신러닝 수업입니다. (https://www.coursera.org/) 저도 많은 인공지능 수업을 들어봤는데, 이만큼 쉽고 자세하게 이론을 설명하는 프로그램은 없습니다.

혹시 이 분야에 두루두루 관심이 많다면 Andrew Ng 교수님이 담당한 CS229 수업을 추천합니다. 반면 딥러닝에 관심이 많다면 스탠퍼드의 CS231n(컴퓨터 비전)과 CS224n(자연어 처리) 수업을 들어보세요.



©️Feng Yu


<멘토가 추천하는 캐글 경진대회>
마지막은 실전 경험입니다. 앞에서 익힌 시각화 기술을 실전에 적용하는 노하우는 누군가 강의식으로 가르치기 힘듭니다. 심지어 대학원 랩실에서도 거의 알려주지 않습니다.

따라서 회사에 들어가 직접 겪으면서 배우는 게 최선이지만, 그게 힘들다면
캐글에 참여하는 걸 적극 권장합니다.




개인적으로 저는 학습 목적을 위해서라면 현재 진행 중인 경진대회보다는
이미 끝난 대회에 참가하는 게 좋다고 생각합니다. 몇몇 경진대회는 학습 목적에 적합하지 않은 경우가 있을뿐더러 대회가 끝나고 나면 상위 캐글러들이 자신의 솔루션을 공유해주거든요. 이를 보고 배우는 게 큰 도움이 됩니다.

제가 추천하는 경진대회는 다음과 같습니다.



©️eakasarn


1. Bag of Words Meets Bags of Popcorn : 캐글의 자연어(텍스트) 처리 튜토리얼 중 하나입니다. 요즘 가장 인기 있는 알고리즘인 Word2Vec을 집중적으로 다루고 있는데요. 홈페이지에 디테일한 튜토리얼이 있으므로 차근차근 따라 하며 학습하면 됩니다.

2. Home Depot Product Search Relevance : Home Depot이라는 회사에서 개최한 자연어 처리 경진대회입니다. 검색어를 넣으면 그에 일치하는 상품을 찾아주는 검색엔진 대회인데요. 다른 대회에 비해 많은 참가자가 참석하며, 그만큼 다양한 솔루션이 공유되고 있습니다.

3. Digit Recognizer : 일명 MNIST 데이터셋이라 불리는 우편번호 필기체 데이터셋에서 숫자 0부터 9를 맞추는 캐글의 이미지 경진대회입니다. 가장 쉬운 이미지 경진대회이며, 많은 곳에서 튜토리얼로 사용되고 있어요. 이미지 처리에 관심 있는 분들은 이를 따라 해보시길 바랍니다.

4. NOAA Right Whale Recognition : 캐글에서 가장 유명한 이미지 경진대회 중 하나로, 많은 솔루션과 노하우가 공개되어 있습니다. 1위 deepsense.io가 압도적인 점수 차로 우승을 차지한 것으로 유명합니다.

5. Two Sigma Financial Modeling Challenge : Two Sigma라는 세계적인 헤지펀드에서 주최한 경진대회입니다. 주식거래나 시스템 트레이딩, 이를 활용한 다양한 알고리즘(비트코인 자동 트레이딩 등)에 관심 있는 분들에게 좋은 공부가 될 겁니다.

6. Instacart Market Basket Analysis : Instacart라는 식음료 배달 스타트업에서 개최한 경진대회입니다. 고객이 특정 상품을 구매했을 때, 해당 상품을 재구매할 것인지를 맞추는 대회입니다.

7. Airbnb New User Bookings : 에어비앤비에서 주최한 경진대회입니다. 신규 사용자의 첫 번째 숙소 예약을 맞추는 대회이며, 에어비앤비의 데이터사이언스 부서 채용을 목적으로 열렸습니다. 즉, 좋은 성적을 올리면 에어비앤비에서 인터뷰할 기회를 준다는 거죠.

이렇게 데이터 관련 독학 공부법을 알려드렸습니다. 도움이 되셨나요? 오직 실력으로 승부하는 분야이기 때문에 열심히 갈고 닦아 꼭 원하는 꿈을 이루시길 바랍니다. 읽어주셔서 감사합니다!


이봉호 멘토
우아한형제들 · 데이터사이언스
마케팅/MD
안녕하세요.
불확실성을 즐기기 때문에 항상 겸손해지고 싶습니다. :)
질문을 잘하는 사람이 되고 싶습니다.
같은 직무를 다룬 글
인기 있는 글
연구/설계
약 6년 전