혹시 데이터 마케팅 강연을 찾으시나요?
그렇다면 이 쪽으로

분석 결과

고객님이 제출해주신 설문조사에 기반하여 다음의 커리큘럼을 추천드립니다.

입문 속성 과정

2일 과정, 18시간

99만원

비전공, 비개발직군 가능

입문반 4주 과정을 오전/오후 시간에 집중해서 단, 이틀만에 입문반 과정을 끝내는 압축 속성반입니다. 시간적 여유가 없는 분들을 위한 과정으로 단기간에 효과적으로 과정을 완주 하실 수 있습니다.

자세히 보기 Chevron down b

50% 할인 결제하기

입문 과정

4주 과정, 매주 5시간

99만원

비전공, 비개발직군 가능

비전공, 비개발직군을 위한 데이터 사이언스 입문 코스. 캐글 데이터 사이언스 경진 대회의 문제와 데이터를 교재 삼아 실습하고 필수 프로그래밍 툴킷을 배웁니다.

자세히 보기 Chevron down b

현재 잔여 좌석 6개

50% 할인 결제하기

입문 생중계 과정

4주 과정, 매주 5시간

99만원

비전공, 비개발직군 가능

DS스쿨 최고 인기 강연 입문반을 온라인으로 만나보실 수 있습니다. 실시간 화상 교육으로 진행되는 수업을 통해 먼 지방에서도 집에서 참가하실 수 있습니다.

자세히 보기 Chevron down b

현재 잔여 좌석 9개

50% 할인 결제하기

실전 데이터분석 과정

4주 과정, 매주 1회 * 4시간

99만원

입문 과정 이수자 또는 파이썬 프로그래밍 경험자

DS School 입문 과정을 이수한 분, 또는 간단한 파이썬 문법(반복문, 함수, etc)을 배운 분 중에서, 데이터 분석가(Data Analyst)로 이직하거나 취업/전향하는 것에 관심 있는 분들을 대상으로 하는 수업입니다.

자세히 보기 Chevron down b

40% 할인 결제하기

실전 머신러닝 과정

4주 과정, 매주 1회 * 4시간

99만원

입문 과정 이수자 또는 경력자

프로그래밍과 데이터사이언스의 기초 지식이 있으나, 머신러닝 알고리즘을 전혀 써본 적이 없는 분, 내지는 써보았으니 그 원리를 잘 모르는 분들을 대상으로 합니다.

자세히 보기 Chevron down b

40% 할인 결제하기

딥러닝 과정

4주 과정, 매주 2회 * 3시간

149만원

입문 과정 이수자 또는 경력자

기본 프로그래밍과 수학 능력을 갖췄지만, 딥러닝에 관한 지식이 없는 분들을 대상으로 합니다. 딥러닝을 활용한 영상처리와 관련된 커리큘럼으로 구성되어 있습니다.

자세히 보기 Chevron down b

30% 할인 결제하기

온라인 심화 과정

4주 과정, 온라인으로 바로 시작

29만원

입문 과정 이수자 또는 경력자

심화반을 들을 수 있는 시간적 장소적 여건이 되지 않는 분들을 위해 준비했습니다. 신규 캐글 경진대회에 참여하며, 프로페셔널한 데이터사이언티스트의 기준인 경진대회 상위 10% 안에 드는 것을 목표로 합니다.

자세히 보기 Chevron down b

결제하기

풀타임 교육

과정 준비 중

399만원

전 과정 교육 및 커리어 코스

입문/중급/고급 과정을 8주만에 완주하고, 커리어 코칭 (이력서, 포폴 제작, 기술 인터뷰 준비)을 받아 데이터 사이언티스트로써 경력을 시작하도록 돕는 압축 취업 코스.

예약 하기
다른 강의들 보러가기 Chevron right b

DS School이 자신있게 권하는 딥러닝 강좌

기본적인 프로그래밍 실력과 수학 능력을 갖췄지만, 인공지능과 딥러닝에 관한 지식이 전혀 없는 분들을 대상으로 합니다. 특히나 딥러닝을 활용한 영상처리(Image processing)에 관심이 많은 분을 위한 커리큘럼으로 구성되어 있습니다.

만일 모두를 위한 딥러닝이나, 타 교육기관에서 진행한 딥러닝 강의(ex: 패스트캠퍼스)가 너무 어렵게 느껴졌다면 이 수업을 다시 듣는 것을 적극적으로 추천합니다. 수업의 취지 자체가 이전에 제가 진행한 교육 과정(소프트웨어 마에스트로)에서 기존의 딥러닝 수업을 어려워하던 연수생에게 딥러닝을 쉽게 설명하고자 개설한 강의이기 때문입니다.

반면 스탠포드의 CS231n이나 CS224n 들은 경험이 있고, 이 수업의 내용을 모두 이해한 분들에게는 이번 수업이 너무 쉽게 느껴질 수 있으므로 수강을 추천하지 않습니다.

수업 신청 하러가기 >

프로그래밍과 수학 지식은 공과대학 1~2학년 정도의 기초 지식만 있다면 수업을 따라가는 데 문제가 없습니다.

프로그래밍은 파이썬으로 진행하며, 점프 투 파이썬 수준의 파이썬 지식만 있으면 수업을 충분히 이해하실 수 있습니다. (파이썬을 공부해본 적 없는 분들은, 하루-이틀 정도 시간을 들여 점프 투 파이썬을 실습해 오시는 걸 추천해 드립니다)

수학은 간단한 수학 연산과 기초적인 미분을 이해하고 있다면 충분합니다. 만일 연쇄 법칙(Chain Rule, 고등학교 교과과정에서는 합성함수의 미분이라는 표현을 사용합니다)을 들어본 적이 있다면 수업을 따라오는 데 큰 지장이 없을 겁니다.

다만 수강생마다 수학 실력의 차이가 있기 때문에(내지는 수학을 공부한지 오래되었을 수도 있기 때문에) 수업 자체는 미분을 모른다는 가정하에 차근차근 진행합니다. 그 때문에 미분이나 관련 공식이 기억나지 않는 분들도 수업을 따라올 열정만 노력이 있다면 수강하는 데 문제가 없을 것으로 판단합니다.

수업 신청 하러가기 >

DS스쿨 딥러닝 커리큘럼을 1년간 준비하면서 수 많은 유료 강연, 코스들을 경험한 바에 따르면 현재 공개되어있는 딥러닝 수업들은 크게 두 가지 방식으로 나누어집니다.

첫 번째는 대학교에서 진행하는 정규 수업입니다. 스탠포드의 CS231n, 내지는 제프리 힌튼 교수의 딥러닝 수업이 대표적입니다. 위 수업은 딥러닝 알고리즘을 처음부터 끝까지 굉장히 꼼꼼하게 설명하기 때문에 딥러닝의 기초를 탄탄하게 다지기에 매우 좋습니다.

하지만 수업 자체가 잘 하는 몇몇 학생들을 선별하여 높은 학점을 주고 대학원을 보내는 목적으로 개설한 강의이기 때문에, 수업의 난이도가 상당히 높게 구성되어 있습니다. (이는 대부분의 대학교/대학원 수업이 가진 공통적인 단점입니다) 위 수업은 적어도 스탠포드/토론토대 학부생 수준의 기초 지식과 시간적 여유를 갖추고 있지 않다면 수업을 따라가는 것이 불가능합니다.

마찬가지로 국내의 대학원 수업에서 파생된 다른 딥러닝 강의 역시 관련 전공의 대학생이 아니라면 수업을 이해하는 것이 불가능합니다. 제 경험상, 수업을 진행하는 강사가 최근까지 대학원 인공지능 연구실에 소속되어 있었다면 해당 수업은 대부분 일반인이 이해하기 어려운 내용으로 구성된 경우가 많았습니다.

반면 이 수업의 목표는 대학원 수업처럼 소수의 정예를 걸러내는 것이 아닌, 한 명의 낙오자도 없이 모두가 딥러닝을 완벽하게 학습하는 것입니다. 그 때문에 일반인이 이해하기 어려운 내용이 있으면 최대한 쉽게 풀어서 설명하도록 노력했으며, 특히나 이론적인 부분을 직접 코드로 작성하면서 실험해보고, 검증해보고, 이를 통해 이해도를 높이는 과정을 포함하였습니다.

두 번째는 대학교의 정규 수업은 아니지만, 인터넷에 공개되어있는 딥러닝 강좌입니다. 이 강좌들은 굉장히 실용적인 내용으로 구성되어 있으며, 아주 빠른 시간 내에 딥러닝을 배워서 사용하는 것을 목표로 커리큘럼이 만들어져 있습니다.

문제는, 위 수업은 “누군가가 제시한 딥러닝 알고리즘을 어떻게 코드로 구현할 것인가?" 에 치중되어 있기 때문에, 딥러닝의 기초를 쌓을 수 있는 내용이 부족합니다. 제 개인적인 경험상 위와 같은 수업으로 딥러닝을 배운 수강생분들의 경우 실제 딥러닝 관련 업무를 맡기면 전혀 수행하지 못하는 경우가 대부분이었습니다.

만일 본인이 딥러닝의 weight를 어떻게 초기화해야 하는지, loss가 제대로 수렴하지 않는다면 어떤 문제가 있는지, 또한 인터넷에서 다운받은 딥러닝 모델이 잘 동작하지 않는데 그 원인을 찾는 법을 모르겠다면 아마 기초가 탄탄하지 않아서 생기는 문제라고 보시면 됩니다.

제가 많은 학생들과 상담을 해보니, 처음부터 텐서플로우(Tensorflow)로 진행하는 수업 과정에서 특히나 이런 문제가 많이 일어나는것을 발견했습니다. 텐서플로우는 딥러닝의 너무 많은 절차를 내부에 숨겨두기 때문에 딥러닝의 원리를 코드로 파악할 수 없으며, 자연스럽게 이론과 멀어진 채 주어진 패턴에 따라 코드를 구현하는 데에만 집중하게 됩니다.

DS스쿨 딥러닝 반에서는 가능한 동작 원리를 먼저 파악하고, 이를 파이썬으로 하나하나 구현해보면서 문제를 해결하시게 됩니다. (놀라운 사실은, 파이썬으로 작성하는게 텐서플로우로 작성하는 것 보다 코드의 분량이 훨씬 적습니다!) 이게 100 여 명에게 딥러닝을 가르치면서 제가 터득한 효과적인 강습 방법입니다. 텐서플로우나 파이토치(PyTorch), 케라스(Keras)를 사용하는 것은 그 이후에 하시게 됩니다.

수업 신청 하러가기 >

수업의 최종 목표는 딥러닝을 활용하여 학교나 회사에서 직접 사용할 수 있는 경지까지 도달하는 것입니다. 수업은 딥러닝을 이용한 이미지 인식(Image Recognition)에 대한 대부분의 내용을 다루며, 이미지 위치 탐색(Image Detection, Segmentation)생성(Image Generation)에 대한 기초 지식과 그 개괄적인 내용도 다루고 있습니다.

이론은 가장 기본적인 딥러닝 알고리즘인 Single layer neural network부터, 딥러닝의 혁신을 주도한 주요 모델(LeNet5, AlexNet, VGGNet, ResNet, etc), 그리고 2017년까지 등장한 최신 딥러닝 알고리즘(WideResNet, ResNeXt, SENet) 까지 전부 다룹니다. 또한 이 내용을 언제든지 실전에서 사용할 수 있도록 해당 모델을 구현하는 법과 그 코드 설명까지 포함되어 있습니다.

실전에서는 구현된 모델을 그대로 사용하면 정상적으로 동작하지 않기 때문에 이를 수정하는 과정을 거쳐야 합니다. 여기서부터 본인의 딥러닝에 대한 이론적 완성도를 시험받게 됩니다. 이론이 탄탄하지 않으면 문제를 파악하는 것도, 파악한 문제를 고치는 법도 알 수 없습니다. 하지만 이번 수업에서는 이런 상황이 발생하지 않도록, 딥러닝의 원리를 하나하나 파악하며 딥러닝을 구현하는 과정을 거칠 것입니다.

제 수업에서 딥러닝 낙오자는 없습니다.

수업 신청 하러가기 >

DS School 입문반 강좌 소개

데이터에 대한 호기심과 필요성을 갖고 있지만, 데이터 분석을 해 본 적이 없는 비전공자를 대상으로 합니다. DS School의 입문반 수업은 수학적 지식이나 통계학적 지식이 전혀 없고, 프로그래밍 언어도 다뤄본 적 없는 초심자를 대상으로 합니다.

조금 더 구체적으로 설명하자면, 다음과 같은 고민을 하는 분들에게 입문반 수업을 추천합니다.

  • 현재 직장에서 갑작스럽게 데이터 관련 업무가 주어져서 혼란스러운 분들.
  • 현재 직장에서 장기적으로 데이터 관련 업무를 병행하면 빠른 승진을 기대할 수 있는 분들.
  • 현재 하는 업무가 장기으로 큰 비전이 없다고 느껴져서, 데이터를 활용하는 유사 업무로 이직하고 싶은 분들.
  • 현재 인공지능과 관련 없는 석사, 박사, 또는 기타 연구소에 재직 중이지만, 본인의 연구에 데이터를 활용해서 더 큰 학문적 성과를 내고 싶은 분들.
  • 현재 취업을 준비하고 있지만, 지금 준비하는 분야가 아닌 데이터를 활용한 다른 분야로 취업하기를 원하는 분들.
  • 당장 데이터 관련 업무를 맡아야 하는 건 아니지만, 데이터라는 분야에 대한 지적 호기심이 있으며 트렌드를 빠르게 쫓아가길 원하는 분들.

위와 같은 고민은 하는 분 중에, 다음과 같은 상황에 부닥친 분들이 DS School 입문반 수업을 들으며 크게 만족하였습니다.

  • 프로그래밍은 물론, 전문적인 수학과 통계학 공부를 해 본 적이 없는 비전공자, 그것도 문과 출신.
  • 프로그래밍과 데이터에 관심이 많아서 공부를 해보았으나, 난이도가 너무 높아서 실패를 겪은 분들.
  • 업무상의 이유로 인해 빠른 기간 안에 데이터 관련 업무를 수행해야 하는 분들.
  • 현재 병행하고 있는 일이 있어서 예습과 복습에 많은 시간을 쓰기 어려운 분들.
  • 데이터 관련 공부를 할 때 본인이 잘 배우고 있는지 가이드를 해주는 사람이 없어서 곤란을 겪었던 분들.

반면 다음과 같은 경험을 가진 분들에게는 입문반 수업을 듣는 것을 추천하지 않습니다.

  • 이전에 데이터 분석을 해 본 분들. 가령 판다스(Pandas)와 싸이킷런(scikit-learn)을 다뤄본 경험이 있으며, 다뤄본 결과 이 정도는 독학으로 충분히 배울 수 있다는 확신이 드는 분들.
  • 독학으로 데이터 공부를 했지만, 큰 어려움 없이 업무에 활용 가능할 만큼의 지식을 습득한 분들. 가령 의사결정나무(Decision Tree)와 같은 인공지능 알고리즘의 동작 원리를 이해하고 싸이킷런(scikit-learn)에서 이 알고리즘을 직접 사용할 수 있는 분들.
  • 데이터사이언스 경진대회 캐글(Kaggle)에 참여했는데, 특정 경진대회에서 상위 25% 이상의 성적을 올린 분들. (단 튜토리얼성 경진대회는 제외)
  • 이전에 학교에서 인공지능 수업을 들어본 경험이 있거나, 인공지능 관련 학과 또는 연구실에 진학, 및 재직한 경험이 있는 분들.
수업 신청 하러가기 >

수업에 필요한 선수지식은 없습니다. 수업은 수강생분들이 1) 수학적 지식과 통계학적 지식이 전혀 없으며, 2) 프로그래밍을 한 번도 공부해 본 적 없다는 전제하에 진행합니다.

조금 더 구체적으로 설명하자면, 1) 수학과 통계학은 대한민국 중학생 수준의 지식만 있으면 충분합니다. 평균이나 루트(√), 로그(log) 등을 들어본 적이 있다면 입문반 수업을 따라오는 데 전혀 지장이 없을겁니다. DS School의 입문반 수업은 수강생들이 데이터를 배우는데 수학적 지식과 통계학적 지식이 없다고 전혀 부끄러워할 필요가 없다고 생각합니다.

또한 수업에서는 수강생분들이 2) 프로그래밍 언어(ex: 파이썬)을 전혀 해 본 적이 없다는 전제하에 진행합니다. 입문반 수업에 참여한 수강생의 80%는 입문반에서 프로그래밍을 처음 배웠지만, 모두 데이터 분석을 할 수 있는 충분한 프로그래밍 지식을 습득한 뒤 졸업하였습니다.

다만 예외적으로 프로그래밍을 배운 적이 있거나 현장에서 프로그래머로 일하고 계신 분들을 위한 추가 자료와 과제를 넉넉하게 제공하고 있습니다.

수업 신청 하러가기 >

수강생 분들을 대상으로 조사를 해 본 결과, 1) 수강생의 50%는 문과 출신이며, 2) 나머지 30%는 이과 출신이지만 프로그래밍을 한 번도 해본 적이 없는 분들이었습니다. 3) 그리고 나머지 20%가 프로그래밍은 해봤지만, 데이터 분석은 처음인 분들이었습니다.

입문반 수업의 난이도는 1번 분들을 대상으로 맞춰져 있습니다. (수학, 통계학에 자신 없고 프로그래밍을 전혀 해본 적이 없는 문과 출신), 하지만 2번 분들과 3번 분들이 수업을 쉽게 느끼지 않도록 별도의 추가 자료와 과제를 매주 제공하고 있습니다.

또한, 입문반 수업에는 주로 회사나 학업을 병행하면서 데이터 공부를 하길 원하는 분들의 비중이 높았습니다. 그러므로 입문반 수업에서는 본업에 지장이 있을 만큼 과다한 숙제나 자료를 제공하지 않습니다. 대신에 수업 당일날 집중해서 들으면 별도의 예습/복습 시간 없이 따라올 수 있도록 커리큘럼을 구성하였습니다.

물론 이런 분들과는 별개로, 빠른 기간 안에 데이터를 학습하길 원하는 분들을 위한 추가 자료와 과제를 매주 제공하고 있습니다. (단 이 자료를 통해 복습하는 것은 필수 사항은 아닙니다)

수업 신청 하러가기 >

가장 큰 차이는 철저한 실전 위주의 수업이라는 것입니다. DS School의 입문반 수업은 장황한 이론 설명을 배제하고 배워서 바로바로 써먹을 수 있는 실전 노하우를 집중적으로 가르칩니다. 그러므로 PPT 위주의 이론 수업보다 훨씬 더 실용적입니다.

수업에서는 캐글(Kaggle)이라는 데이터 사이언스 경진대회에 참가합니다. 캐글은 전세계적으로 공신력 있는 유명 경진대회를 모아놓았는데, 마이크로소프트, 페이스북, 구글 출신을 포함한 해외의 다양한 데이터 사이언티스트들이 참여하고 있습니다. 또한, 인공지능의 대가로 유명한 요슈아 벤지오(Yoshua Bengio, 현 몬트리올대 교수. 딥러닝 붐을 일으킨 주역 중 하나)와 이안 굿펠로우(Ian Goodfellow, GANs의 창시자)도 캐글 경진대회에 참여하거나 포럼에서 토론을 벌이곤 합니다.

DS School의 입문반 수업은 수강생분들과 강사, 조교들이 힘을 합쳐 캐글 경진대회에 도전합니다. 해상사고에서 어떠한 승객이 생존 확률이 높은지 예측하는 경진대회나, 워싱턴 소재의 스타트업에서 요청한 시간당 자전거 대여량을 맞추는 경진대회 등에 참석합니다.

이러한 과정을 통해 실력을 테스트하고, 동시에 실전에서 즉시 사용할 수 있는 노하우를 빠르게 배울 수 있습니다. DS School에서는 체계적인 커리큘럼과 강사, 조교의 적극적인 지원으로 수강생이 빠른 기간 안에 캐글 상위 랭커가 될 수 있도록 도와드립니다.

수업 신청 하러가기 >

캐글(Kaggle)에서는 경진대회의 성적으로 데이터 사이언티스트들의 실력을 평가하는데, 보통

  1. 상위 25% 안에 든 참석자를 실력 있는 데이터 사이언티스트라고 평가하며,
  2. 상위 10% 안에 든 참석자를 전문적인 데이터 관련 업무를 할 수 있는 프로페셔널한 데이터 사이언티스트라고 평가합니다. (해당 참석자에게는 캐글에서 공인하는 동메달 마크가 부여됩니다. 이 동메달은 캐글 상위 10%를 상징합니다)
  3. 또한 상위 5%에 드는 참석자를 프로 중에서도 특출나게 뛰어난 데이터 사이언티스트라고 평가합니다. (해당 참석자에게는 캐글에서 공인하는 은메달 마크가 부여됩니다. 이 은메달은 캐글 상위 5%를 상징합니다)

(참고자료)

DS School 입문반의 목표는 다음과 같습니다.

  1. 수강생들이 가능한 스스로의 힘으로 경진대회의 25%, 가능한 상위 10%에 도달하도록 합니다. 이는 혼자 힘으로는 불가능하기에, 매 수업마다 강사와 조교의 적극적인 지원이 있을 것입니다.
  2. 경진대회가 끝나면 강사가 경진대회에서 상위 5%에 도달할 수 있는 노하우를 공유합니다. 이 노하우를 수강생이 잘 이해할 수 있게끔 쉽게 풀어서 설명하며, 수업이 끝나면 노하우를 정리한 자료를 수강생분들에게 공유합니다.

만일 입문반 수업을 통해 1번, 가능하면 2번까지 도달할 수 있다면 현장에서 데이터 업무를 수행할 수 있는 충분한 역량을 갖추었다고 판단할 수 있습니다.

또한 앞서 말씀드린 대로 캐글은 공신력 있는 경진대회입니다. 그 뜻은, 입문반 수업에서 달성한 캐글 성적을 본인의 포트폴리오로 제출할 수 있습니다 . 가령 SK텔레콤이나 쿠키런을 개발한 데브시스터즈의 경우 구인 공고에서 공식적으로 캐글 상위권에 달성한 지원자를 유명 인공지능 학회(NIPS, ICML, ICLR, CVPR, etc)에 논문을 게재한 석사, 박사 연구자와 동급으로 인정해주고 있으며, 네이버, 카카오, 삼성전자 등에서도 암묵적으로 캐글 성적을 인정해주고 있습니다.

만일 데이터 사이언티스트로 취업이나 이직을 원하는 분들은 입문반 수업을 통해 캐글에 적극적으로 참여함으로써, 본인의 실력을 키움과 동시에 포트폴리오를 만드는 두 마리 토끼를 다 잡을 수 있습니다.

수업 신청 하러가기 >

DS School 입문반 강좌 소개

분명 온라인은 오프라인 수업에 비해 교육 효과에 대한 단점들이 존재할 수 있습니다. 이에 대한 고민과 테스트를 DS스쿨 내부에서 열심히 거쳤고, 단점을 보완하고 장점을 극대화할 수 있다 판단되어 런칭하게 되었습니다. DS스쿨 온라인 라이브 수업은 오프라인 수업에 비교해 많은 장점이 있습니다.
  1. 장소를 이동하는데 드는 시간과 비용을 아낄 수 있습니다. 오프라인 수업이 하루 다섯 시간이라고 하더라도, 강의실로 이동하는 데 한 시간이 걸린다면 실제로는 일곱 시간이 걸리는 셈입니다. 하지만 온라인 수업은 장소를 이동하는 시간을 아낄 수 있고, 남는 시간에 예습과 복습을 한다면 오프라인 수업보다 더 큰 성취감을 느낄 수 있습니다.

  2. 화상 회의를 통해 실시간으로 진행되기 때문에, 오프라인 수업의 현장감을 그대로 느낄 수 있습니다. 수업 중에 강사와 커뮤니케이션 할 수 있으며, 중간중간 모르는 부분이 있으면 조교님이 다른 화상 회의 채널로 1대1 코칭을 해줍니다. 또한, 실습은 오프라인 수업과 달리 수강생이 자유롭게 시간을 조율해가며(ex: 전화를 받거나, 잠시 다른 업무를 보거나) 참여할 수 있습니다.

  3. 온라인 수업을 듣다가 급한 사정이 생겼거나, 기타 이유로 인해서 수업을 놓칠 수 있습니다. 혹은 흐름을 따라가지 못해 충분한 학습을 하지 못했다고 생각할 수 있습니다. 이런 경우 언제든지 오프라인 수업으로 변경을 신청할 수 있습니다. (강남역 DS스쿨 강의장) 가까운 일정의 오프라인 수업으로 변경을 신청하면 추가 비용 없이 교차 수강을 지원해드립니다. 또한, 온라인 수업을 만족스럽게 듣지 못했을 경우, 입문반에 한하여 언제라도 오프라인 수업을 무제한으로 재수강 할 수 있습니다.

데이터에 대한 호기심과 필요성을 갖고 있지만, 데이터 분석을 해 본 적이 없는 비전공자를 대상으로 합니다. DS School의 입문반 수업은 수학적 지식이나 통계학적 지식이 전혀 없고, 프로그래밍 언어도 다뤄본 적 없는 초심자를 대상으로 합니다.

조금 더 구체적으로 설명하자면, 다음과 같은 고민을 하는 분들에게 입문반 수업을 추천합니다.

  • 현재 직장에서 갑작스럽게 데이터 관련 업무가 주어져서 혼란스러운 분들.
  • 현재 직장에서 장기적으로 데이터 관련 업무를 병행하면 빠른 승진을 기대할 수 있는 분들.
  • 현재 하는 업무가 장기으로 큰 비전이 없다고 느껴져서, 데이터를 활용하는 유사 업무로 이직하고 싶은 분들.
  • 현재 인공지능과 관련 없는 석사, 박사, 또는 기타 연구소에 재직 중이지만, 본인의 연구에 데이터를 활용해서 더 큰 학문적 성과를 내고 싶은 분들.
  • 현재 취업을 준비하고 있지만, 지금 준비하는 분야가 아닌 데이터를 활용한 다른 분야로 취업하기를 원하는 분들.
  • 당장 데이터 관련 업무를 맡아야 하는 건 아니지만, 데이터라는 분야에 대한 지적 호기심이 있으며 트렌드를 빠르게 쫓아가길 원하는 분들.

위와 같은 고민은 하는 분 중에, 다음과 같은 상황에 부닥친 분들이 DS School 입문반 수업을 들으며 크게 만족하였습니다.

  • 프로그래밍은 물론, 전문적인 수학과 통계학 공부를 해 본 적이 없는 비전공자, 그것도 문과 출신.
  • 프로그래밍과 데이터에 관심이 많아서 공부를 해보았으나, 난이도가 너무 높아서 실패를 겪은 분들.
  • 업무상의 이유로 인해 빠른 기간 안에 데이터 관련 업무를 수행해야 하는 분들.
  • 현재 병행하고 있는 일이 있어서 예습과 복습에 많은 시간을 쓰기 어려운 분들.
  • 데이터 관련 공부를 할 때 본인이 잘 배우고 있는지 가이드를 해주는 사람이 없어서 곤란을 겪었던 분들.

반면 다음과 같은 경험을 가진 분들에게는 입문반 수업을 듣는 것을 추천하지 않습니다.

  • 이전에 데이터 분석을 해 본 분들. 가령 판다스(Pandas)와 싸이킷런(scikit-learn)을 다뤄본 경험이 있으며, 다뤄본 결과 이 정도는 독학으로 충분히 배울 수 있다는 확신이 드는 분들.
  • 독학으로 데이터 공부를 했지만, 큰 어려움 없이 업무에 활용 가능할 만큼의 지식을 습득한 분들. 가령 의사결정나무(Decision Tree)와 같은 인공지능 알고리즘의 동작 원리를 이해하고 싸이킷런(scikit-learn)에서 이 알고리즘을 직접 사용할 수 있는 분들.
  • 데이터사이언스 경진대회 캐글(Kaggle)에 참여했는데, 특정 경진대회에서 상위 25% 이상의 성적을 올린 분들. (단 튜토리얼성 경진대회는 제외)
  • 이전에 학교에서 인공지능 수업을 들어본 경험이 있거나, 인공지능 관련 학과 또는 연구실에 진학, 및 재직한 경험이 있는 분들.

수업에 필요한 선수지식은 없습니다. 수업은 수강생분들이 1) 수학적 지식과 통계학적 지식이 전혀 없으며, 2) 프로그래밍을 한 번도 공부해 본 적 없다는 전제하에 진행합니다.

조금 더 구체적으로 설명하자면, 1) 수학과 통계학은 대한민국 중학생 수준의 지식만 있으면 충분합니다. 평균이나 루트(√), 로그(log) 등을 들어본 적이 있다면 입문반 수업을 따라오는 데 전혀 지장이 없을겁니다. DS School의 입문반 수업은 수강생들이 데이터를 배우는데 수학적 지식과 통계학적 지식이 없다고 전혀 부끄러워할 필요가 없다고 생각합니다.

또한 수업에서는 수강생분들이 2) 프로그래밍 언어(ex: 파이썬)을 전혀 해 본 적이 없다는 전제하에 진행합니다. 입문반 수업에 참여한 수강생의 80%는 입문반에서 프로그래밍을 처음 배웠지만, 모두 데이터 분석을 할 수 있는 충분한 프로그래밍 지식을 습득한 뒤 졸업하였습니다.

다만 예외적으로 프로그래밍을 배운 적이 있거나 현장에서 프로그래머로 일하고 계신 분들을 위한 추가 자료와 과제를 넉넉하게 제공하고 있습니다.

수강생 분들을 대상으로 조사를 해 본 결과, 1) 수강생의 50%는 문과 출신이며, 2) 나머지 30%는 이과 출신이지만 프로그래밍을 한 번도 해본 적이 없는 분들이었습니다. 3) 그리고 나머지 20%가 프로그래밍은 해봤지만, 데이터 분석은 처음인 분들이었습니다.

입문반 수업의 난이도는 1번 분들을 대상으로 맞춰져 있습니다. (수학, 통계학에 자신 없고 프로그래밍을 전혀 해본 적이 없는 문과 출신), 하지만 2번 분들과 3번 분들이 수업을 쉽게 느끼지 않도록 별도의 추가 자료와 과제를 매주 제공하고 있습니다.

또한, 입문반 수업에는 주로 회사나 학업을 병행하면서 데이터 공부를 하길 원하는 분들의 비중이 높았습니다. 그러므로 입문반 수업에서는 본업에 지장이 있을 만큼 과다한 숙제나 자료를 제공하지 않습니다. 대신에 수업 당일날 집중해서 들으면 별도의 예습/복습 시간 없이 따라올 수 있도록 커리큘럼을 구성하였습니다.

물론 이런 분들과는 별개로, 빠른 기간 안에 데이터를 학습하길 원하는 분들을 위한 추가 자료와 과제를 매주 제공하고 있습니다. (단 이 자료를 통해 복습하는 것은 필수 사항은 아닙니다)

가장 큰 차이는 철저한 실전 위주의 수업이라는 것입니다. DS School의 입문반 수업은 장황한 이론 설명을 배제하고 배워서 바로바로 써먹을 수 있는 실전 노하우를 집중적으로 가르칩니다. 그러므로 PPT 위주의 이론 수업보다 훨씬 더 실용적입니다.

수업에서는 캐글(Kaggle)이라는 데이터 사이언스 경진대회에 참가합니다. 캐글은 전세계적으로 공신력 있는 유명 경진대회를 모아놓았는데, 마이크로소프트, 페이스북, 구글 출신을 포함한 해외의 다양한 데이터 사이언티스트들이 참여하고 있습니다. 또한, 인공지능의 대가로 유명한 요슈아 벤지오(Yoshua Bengio, 현 몬트리올대 교수. 딥러닝 붐을 일으킨 주역 중 하나)와 이안 굿펠로우(Ian Goodfellow, GANs의 창시자)도 캐글 경진대회에 참여하거나 포럼에서 토론을 벌이곤 합니다.

DS School의 입문반 수업은 수강생분들과 강사, 조교들이 힘을 합쳐 캐글 경진대회에 도전합니다. 해상사고에서 어떠한 승객이 생존 확률이 높은지 예측하는 경진대회나, 워싱턴 소재의 스타트업에서 요청한 시간당 자전거 대여량을 맞추는 경진대회 등에 참석합니다.

이러한 과정을 통해 실력을 테스트하고, 동시에 실전에서 즉시 사용할 수 있는 노하우를 빠르게 배울 수 있습니다. DS School에서는 체계적인 커리큘럼과 강사, 조교의 적극적인 지원으로 수강생이 빠른 기간 안에 캐글 상위 랭커가 될 수 있도록 도와드립니다.

캐글(Kaggle)에서는 경진대회의 성적으로 데이터 사이언티스트들의 실력을 평가하는데, 보통

  1. 상위 25% 안에 든 참석자를 실력 있는 데이터 사이언티스트라고 평가하며,
  2. 상위 10% 안에 든 참석자를 전문적인 데이터 관련 업무를 할 수 있는 프로페셔널한 데이터 사이언티스트라고 평가합니다. (해당 참석자에게는 캐글에서 공인하는 동메달 마크가 부여됩니다. 이 동메달은 캐글 상위 10%를 상징합니다)
  3. 또한 상위 5%에 드는 참석자를 프로 중에서도 특출나게 뛰어난 데이터 사이언티스트라고 평가합니다. (해당 참석자에게는 캐글에서 공인하는 은메달 마크가 부여됩니다. 이 은메달은 캐글 상위 5%를 상징합니다)

(참고자료)

DS School 입문반의 목표는 다음과 같습니다.

  1. 수강생들이 가능한 스스로의 힘으로 경진대회의 25%, 가능한 상위 10%에 도달하도록 합니다. 이는 혼자 힘으로는 불가능하기에, 매 수업마다 강사와 조교의 적극적인 지원이 있을 것입니다.
  2. 경진대회가 끝나면 강사가 경진대회에서 상위 5%에 도달할 수 있는 노하우를 공유합니다. 이 노하우를 수강생이 잘 이해할 수 있게끔 쉽게 풀어서 설명하며, 수업이 끝나면 노하우를 정리한 자료를 수강생분들에게 공유합니다.

만일 입문반 수업을 통해 1번, 가능하면 2번까지 도달할 수 있다면 현장에서 데이터 업무를 수행할 수 있는 충분한 역량을 갖추었다고 판단할 수 있습니다.

또한 앞서 말씀드린 대로 캐글은 공신력 있는 경진대회입니다. 그 뜻은, 입문반 수업에서 달성한 캐글 성적을 본인의 포트폴리오로 제출할 수 있습니다 . 가령 SK텔레콤이나 쿠키런을 개발한 데브시스터즈의 경우 구인 공고에서 공식적으로 캐글 상위권에 달성한 지원자를 유명 인공지능 학회(NIPS, ICML, ICLR, CVPR, etc)에 논문을 게재한 석사, 박사 연구자와 동급으로 인정해주고 있으며, 네이버, 카카오, 삼성전자 등에서도 암묵적으로 캐글 성적을 인정해주고 있습니다.

만일 데이터 사이언티스트로 취업이나 이직을 원하는 분들은 입문반 수업을 통해 캐글에 적극적으로 참여함으로써, 본인의 실력을 키움과 동시에 포트폴리오를 만드는 두 마리 토끼를 다 잡을 수 있습니다.

DS School 실전 머신러닝 과정 소개

DS School의 실전 머신러닝반은 프로그래밍과 데이터 사이언스에 관한 기초적인 지식과 경험이 있으나, 머신러닝 알고리즘을 전혀 써본 적이 없는 분, 내지는 써보았으니 그 원리를 잘 모르는 분들을 대상으로 합니다.

구체적으로 설명하자면, 다음의 노하우에 대한 필요성을 느끼는 분들에게 추천하고 있습니다.

  • 기초적인 프로그래밍 지식이나 경험을 보유하고 있으나, 머신러닝 알고리즘을 배워서 데이터 사이언스로 취업을 원하는 취준생 분들.
  • 현직 프로그래머나 데이터 분석가로 일하고 있지만, 머신러닝 알고리즘을 배워서 실전에 적용하고 싶은 분들. 내지는 머신러닝을 배운 뒤 데이터 사이언티스트로 이직, 전직을 원하는 분들.
  • 현직 데이터 사이언티스트로서 머신러닝 알고리즘을 사용하고 있으나, 대부분 시대에 뒤떨어진 알고리즘이기 때문에 좀 더 최신 버전의 알고리즘을 배우고 활용하고 싶은 분들. 내지는 최신 알고리즘을 쓰는 법은 알지만, 그 알고리즘의 이론과 구체적인 동작 원리에 대해서 자세히 알고 싶은 분들.
  • 본인의 연구 분야에 머신러닝을 활용하고 싶지만, 연구 분야에 적용할 만큼의 이론적 깊이가 부족하다는 생각이 드는 연구자분들.
수업 신청 하러가기 >

수업은 수강생분들이 기본적인 파이썬 프로그래밍 지식이 있다는 가정하에 진행합니다.

더 구체적으로 설명하자면, 파이썬을 활용한 간단한 수학 연산과 자료형(숫자, 문자열, 리스트), 반복문과 제어문, 함수 정도만 이해할 수 있다면 충분합니다. 추가로 클래스나 모듈, 패키지를 이해하고 있다면 수업을 따라오는 데 도움이 될 수 있으나 이는 필수는 아닙니다.

마찬가지로 필수는 아니지만, 파이썬 프로그래밍 지식 이외에도 데이터사이언스에 대한 간단한 지식이 있으면 수업을 따라가는 데 도움이 됩니다. 또는 머신러닝 알고리즘의 구체적인 원리에 대해 모르더라도, 의사결정나무(Decision Tree)나 랜덤 포레스트(Random Forest)와 같은 몇몇 머신러닝 알고리즘을 사용해본 경험이 있으면 수업을 이해하는 데 도움이 될 것입니다.

수업 신청 하러가기 >

다른 수업과의 가장 큰 차이는 1) 최신 머신러닝 트렌드에 기반한 커리큘럼으로 구성되어 있으며, 2) 최신 알고리즘을 가장 실용적으로 사용할 수 있는 방식을 가르치고, 3) 실제 사례를 바탕으로 머신러닝 알고리즘을 학습할 수 있도록 구성되어 있습니다.

먼저 DS School의 실전 머신러닝반은 현업에서 잘 쓰이지 않는 과거의 알고리즘(ex: Support Vector Machine, 이하 SVM)의 비중을 줄이고, 현장의 최전선에서 쓰이는 알고리즘(ex: Random Forest, Gradient Boosting Machine)을 집중적으로 가르칩니다. 이를 통해 단기간에 실용적인 머신러닝 알고리즘을 빠르게 습득할 수 있습니다.

또한 실전 머신러닝반은 알고리즘의 이론적 설명과 더불어, 해당 알고리즘을 가장 실용적으로 사용할 수 있는 방식에 대해 자세히 다룹니다. Gradient Boosting Machine의 가장 강력한 구현체인 XGBoost나 LightGBM, CatBoost 등에 대해 집중적으로 다루며, 해당 알고리즘의 추가 옵션(하이퍼패러미터)에 대한 상세 설명과 이 옵션을 튜닝하는 가장 효율적인 방식을 집중적으로 다룹니다.

마지막으로 실전 머신러닝반은 알고리즘에 대한 이론적 설명 뿐만 아니라, 이를 실제 사례에 적용하는 방법도 자세히 다룹니다. 수강생분들은 데이터사이언스 경진대회인 캐글(Kaggle)에 참여하며, 수업에서 배운 알고리즘으로 캐글 경진대회의 상위권(상위 10% 이내)에 도달할 수 있도록 노력합니다. 이 과정을 통해서 알고리즘을 실제 사례에 적용하는 법을 배우게 됩니다.

수업 신청 하러가기 >

강좌를 완주하면 현업이나 연구에서 쓰일 수 있는 머신러닝 알고리즘 대부분을 습득하게 됩니다. 특히나 구조화된 데이터셋(Structured Dataset, 쉽게 말하자면 거의 모든 엑셀 형식의 데이터)에 한해 가장 강력한 성능을 발휘하는 주요 알고리즘을 완벽하게 이해하고 활용할 수 있습니다.

데이터 사이언스로 취업이나 이직, 전직을 원하는 분들이라면, 딥러닝 알고리즘을 제외하고 현업에서 실용적으로 쓰이는 거의 모든 알고리즘을 습득할 수 있다고 보시면 됩니다. (딥러닝은 딥러닝반 수업에서 별도로 다루게 됩니다)

만일 데이터 사이언스나 머신러닝을 활용한 연구나 논문 집필을 원하는 분들이라면, 의료나 공학을 제외한 거의 모든 분야에서(ex: 사회과학, 인지심리학, 문화인류학 등) 연구나 논문 집필에 활용할만한 지식을 습득할 수 있다고 보시면 됩니다. (마찬가지로 의료나 컴퓨터/기계공학 등에서 쓰이는 연구용 알고리즘은 딥러닝 수업에서 다루게 됩니다)

수업 신청 하러가기 >

DS School 실전 데이터분석 과정 소개

DS School의 실전 데이터분석반은 프로그래밍에 대한 기초적인 지식을 보유하고 있으나, 데이터를 다뤄본 경험이 부족하거나 전혀 없는 분들을 대상으로 합니다.

구체적으로 설명하자면, 다음의 곤란함을 겪고 있는 분들에게 실전 데이터분석반을 추천해 드리고 있습니다.

  • 파이썬 프로그래밍 언어에 대한 기초적인 지식(리스트, 반복문 등)과 경험을 보유하고 있으나, 데이터를 다뤄본 경험이 없거나 부족한 분들.
  • 데이터 분석에 대한 기본적인 지식은 보유하고 있으나, 전자상거래나 헬스케어 데이터와 같은 실제 회사에서 쌓인 데이터를 다뤄본 경험, 소위 말하는 실전 경험이 전혀 없는 분들.
  • 엑셀이나 데이터베이스(ex: MySQL)에 저장된 데이터에 접근해서 원하는 정보(고객의 구매 내역 및 개인정보 등)를 직접 뽑아내서 그 결과를 보고 싶은 분들.
  • 고객 획득 비용(Customer Acquisition Cost, 이하 CAC)과 고객 생애 가치(Customer Lifetime Value, 이하 LTV)와 같은 고급 비즈니스 지표를 직접 뽑아내서 분석하고 이를 통해 데이터에 기반한 의사결정을 내리고 싶은 분들.
  • 파이썬의 데이터 분석 패키지 판다스(Pandas), 데이터 시각화 패키지 씨본(Seaborn), 그리고 데이터베이스에서 데이터를 읽어오기 위한 SQL(Structured Query Language)을 사용해야 하지만, 이에 대한 전문지식과 노하우가 부족한 분들.

이러한 분 중, 당장 현장에서 데이터 분석(Data Analytics) 업무를 맡아야 하거나, 내지는 빠른 기간 안에(3개월 이내) 데이터 분석 노하우를 공부한 뒤 관련 스타트업과의 연계 프로그램을 통해 데이터 분석가(Data Analyst)로서 취업하거나 이직 및 전직을 원하는 분들이 저희 수업을 들은 뒤 큰 만족을 느끼고 있습니다.

수업 신청 하러가기 >

수업은 수강생분들이 기본적인 파이썬 프로그래밍 지식이 있다는 가정하에 진행합니다.

더 구체적으로 설명하자면, 파이썬을 활용한 간단한 수학 연산과 자료형(숫자, 문자열, 리스트), 반복문과 제어문, 함수 정도만 이해할 수 있다면 충분합니다. 추가로 클래스나 모듈, 패키지를 이해하고 있다면 수업을 따라오는 데 도움이 될 수 있으나 이는 필수는 아닙니다.

이외에도 파이썬의 데이터 분석 패키지인 판다스(Pandas)나 데이터 시각화 패키지 matplotlib, 씨본(Seaborn) 등을 알고 있으면 수업을 따라오는 데 큰 도움이 될 것입니다. (마찬가지로 이는 필수가 아닙니다)

수업 신청 하러가기 >

수강생분들을 대상으로 조사를 해 본 결과, 대부분의 수강생분이 프로그래밍 경험이 부족한 비전공자분들이거나 (프로그래밍 경험 3개월 미만) 공학을 전공하였지만, 프로그래밍에 자신이 없는 분들이 참여하고 있습니다.

이 중 단기간(3개월 이내)에 데이터 분석 노하우를 배운 뒤, 회사에서 데이터 분석 관련 업무를 맡거나, 아예 데이터 분석가(Data Analyst)로 취업하거나 이직/전직하기를 원하는 분들이 이 수업을 듣고 있습니다.

실전 데이터분석반은 DS School의 입문반 수업과는 달리, 수강생분들이 수업 외적으로 예습/복습을 할 시간이 있다는 전제하에 진행합니다. (보통 일주일에 2 ~ 3시간 정도의 예습/복습 시간을 할애할 수 있다는 가정을 합니다) 수업이 끝난 뒤 매주 2 ~ 3시간 분량의 예습/복습 과제를 제공해드리며, 빠른 실력 향상을 위해 이 과제를 풀어올 것을 적극적으로 권장해드리고 있습니다.

다만 개인 사정(회사 업무, 육아, 학교 시험 등)으로 인해 과제를 풀지 못하는 분들을 위해, 수업은 과제를 풀지 못하더라도 따라올 수 있도록 준비되어 있습니다. 마찬가지로 개인 사정으로 인해 수업에 참석할 수 없으면, 아무런 추가 비용 없이 무료로 다음 기수로 기수 이전을 도와드리고 있습니다.

수업 신청 하러가기 >

데이터 분석을 배울때 가장 중요한 것은 실전 경험입니다. DS School의 실전 데이터 분석반에서는 여타의 수업과는 다르게, 헬스케어, 성인교육, 전자상거래 등 다양한 스타트업에서 축적한 실제 데이터를 직접 받아와 다룹니다. 실전 데이터 분석반에서 다루는 데이터는 다음과 같습니다.

  • 헬스케어 스타트업 눔(Noom)의 회원 정보(나이, 키, 몸무게 등)와 행동 데이터(담당 코치, 코칭 받은 횟수, 체중 감량 현황)
  • 데이터 사이언스 교육 스타트업 DS School의 광고 효율 정보(어떤 광고를 보고 유입되었는가)와 구매 정보(해당 광고를 본 사람이 수업을 구매하였는가)
  • 패션 스타트업 지그재그(Zigzag)에서 고객이 어떤 상품을 구매하고, 어떤 액티비티(즐겨찾기, 클릭, 상품정보 보기 등)를 하는가
  • 프리랜서 마켓 스타트업 크몽(Kmong)의 웹 서비스, 모바일 서비스(아이폰, 안드로이드)의 사용자 행동 데이터
Logo noom2 Logo Logo zigzag Logo kmong2

이 데이터를 바탕으로, 근거 기반의 의사 결정을 할 수 있는 다양한 데이터 분석 지표를 배우고 파이썬으로 계산하는 법을 배웁니다. 가령 1) 사용자가 우리 서비스에 들어와서 특정 상품을 구매할 확률(전환률, Conversion), 2) 한 명의 사용자를 우리 서비스에 데리고 오는데 드는 비용(고객 획득 비용, Customer Acquisition Cost), 3) 고객이 서비스를 그만두고 떠날 확률(이탈률, Churn Rate) 등을 직접 계산합니다. 이 계산 결과를 바탕으로 어떤 의사결정을 내릴 수 있을 것이며, 서비스를 어떻게 개선할 수 있을지까지도 다루게 될 것입니다.

수업 신청 하러가기 >

DS School의 실전 데이터분석반은 현장과의 취업 연계 과정을 제공하고 있습니다. 4주간의 수업이 끝난 뒤, 수강생분들은 구인을 원하는 스타트업이 제시한 10개의 문제를 과제로 받습니다.

만일 데이터 분석가(Data Analyst)로 취업이나 이직, 전직을 원하는 분들은, 해당 과제를 푼 뒤 이력서와 기타 포트폴리오를 포함하여 저희에게 제출하면 해당 스타트업의 구인 담당자에게 전달해드립니다. 만일 과제를 잘 풀었다면 구인 담당자가 개별적으로 수강생분들에게 연락을 드릴 예정입니다.

또한 과제를 제출할 경우, 취업 외적으로 앞으로 더 훌륭한 데이터 분석가가 되기 위해서는 어떠한 기술을 더 배워야 하는지에 대한 조언과 피드백을 적극적으로 드리고 있습니다.

수업 신청 하러가기 >

DS School이 자신있게 권하는 온라인 강좌

입문반 수강생, 내지는 프로그래밍과 데이터사이언스에 대한 기초 지식을 갖고 있는 분들 중, 본인의 데이터사이언스 스킬을 한 층 더 키우고 싶은 분들을 대상으로 합니다. 이 수업을 듣게 되면 대부분의 데이터사이언스 업무, 특히나 100만개 이상의 데이터를 다루는 업무에서 현장에 즉시전력으로 투입될 수 있는 실력을 갖게 됩니다.

수강생은 데이터사이언스 경진대회 캐글(Kaggle.com)에 가입하여 다른 데이터 사이언티스트들과 경쟁하게 됩니다. 이번에 참여하는 경진대회는 San Francisco Crime Classification으로, 샌프란시스코에서 발생한 범죄의 세부 종류를 예측하는 문제를 풉니다. 보통 캐글에서는 경진대회의 상위 10% 안에 드는 사람을 현장에서 즉시전력으로 투입될 수 있는 데이터사이언티스트로 간주하는데, 이번 수업의 목표는 수업을 통해 가능한 스스로의 힘으로 San Francisco Crime Classification 경진대회의 상위 10%에 드는 것입니다.

수업 신청 하러가기 >

수업은 프로그래밍 언어 파이썬에 대한 기초적인 지식과, 데이터사이언스에 대한 기초 지식을 보유하고 있으면 충분히 따라올 수 있습니다.

프로그래밍은 파이썬으로 진행하며, 점프 투 파이썬 수준의 파이썬 지식만 있으면 수업을 충분히 이해하실 수 있습니다. (파이썬을 공부해본 적 없는 분들은, 하루-이틀 정도 시간을 들여 점프 투 파이썬을 실습해 오시는 걸 추천해 드립니다)

데이터사이언스는 초보적인 지식과 머신러닝 사용법을 숙지하고 있으면 충분합니다. 머신러닝 알고리즘인 의사결정나무(Decision Tree)와 랜덤 포레스트(Random Forest)에 대한 기초적인 지식을 보유하고 있고, 이 알고리즘에 대한 사용법을 숙지하고 있으면 충분합니다. (추가로 그래디언트 부스팅 머신(Gradient Boosting Machine)에 대한 이해도가 있으면 플러스이나, 이는 필수가 아닙니다)

수업 신청 하러가기 >

DS School의 온라인 강좌는 단순한 단방향 형식의 동영상 강좌가 아닙니다. 수업은 동영상과 이를 실습할 수 있는 인터렉티브한 툴(일명 라이브북)이 함께 제공되며, 수강생이 인터렉티브 툴에서 실습을 진행할 때 마다 이를 부연설명하는 동영상이 자동으로 실행됩니다. 이 인터렉티브 툴을 사용하면, 수강생은 오프라인 수업과 거의 유사한 수준의 몰입도를 경험할 수 있습니다.

또한 인터렉티브 툴 이외에도, 수업을 진행하면서 수강생분들의 완주를 도울 수 있도록 담당 조교를 배정하고 있습니다. 이 조교분들은 데이터사이언티스트로써 현업에 일하고 계시거나, 내지는 관련 석박 전공자로 구성되어 있으며, 수강생분들이 수업을 따라가실 수 있도록 주기적으로 진도를 체크하고, 낙오되지 않도록 밀착 관리를 해주실 겁니다.

수업을 따라오시면서 막히는 상황에서는 조교님들과 상시로 1:1 상담이 제공됩니다. 상담은 라이브 채팅툴을 통해 진행되며, 채팅 상담을 하다가 크게 막히는 부분이 생기면 조교님의 화상통화를 통해 1대1 과외를 받는 것도 가능합니다.

수업 신청 하러가기 >

강좌를 완주하면, 최종적으로는 현업에서 데이터사이언티스트로 활동할 수 있을 만큼의 지식과 경험을 얻게 됩니다. 이번 수업에는 크게 다음과 같은 지식을 얻을 수 있습니다.

* 실제 현장에서 쓰이는 머신러닝 알고리즘, 특히나 가장 강력한 머신러닝 알고리즘으로 유명한 그래디언트 부스팅 머신(Gradient Boosting Machine)을 활용한 예측 방법을 배울 수 있습니다. 또한 그래디언트 부스팅 머신을 튜닝할 수 있는 다양한 방법(트리의 갯수를 늘리거나, 여러 개의 트리를 섞을 때 중요한 트리를 먼저 선별해서 섞는 방법 등)을 배울 수 있습니다.

* 엑셀 데이터 기준 행이 100만 개에 육박하는 대용량 데이터를 빠르고 효율적으로 다룰 수 있는 노하우를 얻을 수 있습니다. 이번 수업을 배우면, 100만 개 이하의 데이터는 어렵지 않게 분석 가능하다고 보시면 되고, 실제 현업에서 100만 개 이상의 데이터를 보유하고 있는 회사 자체가 많지 않기 때문에, 사실상 거의 모든 회사의 데이터를 다룰 수 있는 노하우를 얻는다고 보시면 됩니다.

* 일반적인 숫자나 텍스트 데이터 이외에도, 시간, 좌표, 그리고 주소값과 같은 현실세계에서 일어날 수 있을법한 정보를 집중적으로 다루게 됩니다. 이러한 데이터를 가장 연산 효율적으로, 메모리 효율적으로 머신러닝 알고리즘에 집어넣는 법을 집중적으로 배우게 됩니다.

수업 신청 하러가기 >

결제하기

수강료: 495,000 원 (특별 한정 50% 할인가)

수강자 이름에는 빈 값을 넣을 수 없습니다.

이메일 주소에는 빈 값을 넣을 수 없습니다.

전화번호에는 빈 값을 넣을 수 없습니다.



결제 정보

카드 정보는 안전하게 암호화되며,
결제가 끝난 뒤 바로 폐기 처리됩니다.

카드 번호에는 빈 값을 넣을 수 없습니다.

유효 기간에는 빈 값을 넣을 수 없습니다.

대부분의 카드사가 5개월 무이자를 지원합니다.

무통장 입금을 원하시는 경우
국민은행 349401-04-270347
(예금주: 더넥스트스쿨 주식회사)

입금 부탁드립니다.

해외 결제는 PayPal을 지원합니다.

결제 문의는 우측 하단의 말풍선
또는 위은미 매니저 010-2745-5230 로 연락 주세요.

수강생들의 실제 후기

취업/이직에 성공한 졸업생들 후기

요즘 머신러닝에 흥미를 가진 사람들이 많고 관련된 자료는 더 많은 시대가 되었지만 어떻게 시작해야 좋을지 아는 사람은 많지 않습니다. 강성희님과 함께하면서 그저 머신러닝에 흥미만 있었던 저는 차근차근 무엇을 해야 할지 따라갈 수 있었습니다. 실제로 프로젝트를 수행하면서 배운 것은 무엇과도 바꿀 수 없는 값진 경험이었습니다.

- 유상현 (한양대 컴공 졸업) NC소프트 AI랩 입사

대학생 시절부터 인공지능과 머신러닝에 대한 흥미가 있었으나, 이를 가르쳐주고 실전에 적용할 수 있는 방법을 알려주는 곳은 많지 않았습니다. 그러던 중 강성희 강사님의 수업을 통해 다양한 데이터 분석 및 모델링 노하우를 전수받았고, 이 경험과 가치를 인정해준 카카오브레인에 입사할 수 있었습니다. 이번 수업을 통해 여러분들도 이러한 값진 노하우를 전수받는다면 좋겠습니다.

- 이주진 (연세대 수학과 학사 휴학) 카카오브레인 입사

이 수업을 통해 딥러닝 알고리즘을 이미지 데이터에 적용하는 기초 개념을 잡을 수 있었으며, 요 근래 나오는 최신 논문을 막힘없이 읽을 수 있는 기반 지식을 탄탄하게 갖출 수 있었습니다. 그 덕분에 네이버 이미지 검색팀에 합격할 수 있었고, 현재는 그동안 배운 내용을 활용하여 검색팀에서 딥러닝 검색모델을 구현 및 개발하고 있습니다. 만일 딥러닝에 관심이 많고, 장기적인 관점에서 취업이나 이직을 고려하는 분들에게는 본 강의를 강력하게 추천합니다.

- 김인식 (UNIST 졸업) 네이버 Search / Vision 팀 입사

기존에는 학생 신분으로써 데이터를 받아 분석 해보기가 쉽지 않았습니다. 그러던 중 강사님의 Kaggle 강의를 통해 기초적인 이용법과 함께 관련 코딩 스킬을 접할 수 있는 기회가 되었고, 그를 시작으로 다양한 데이터를 다뤄 보고 뛰어난 분석가들이 공유하는 스크립트를 찾아보며 데이터 분석의 재미를 느낄 수 있게 되었습니다. 그리고 그 경험을 통해 현재 업무 스킬의 기반이 될 수 있었습니다.

- 최일지 (부경대 시스템경영공학과 석사 졸업) 카카오브레인 입사

현업 전문가들의 추천사

Ref 1

송치형 CEO

두나무 주식회사
(업비트, 카카오증권)

강성희 멘토님은 소프트웨어마에스트로 과정에서도 훌륭한 멘토로 소문나 있고, 저희 회사에 소개해 주신 수강생들 모두 뛰어난 개발자입니다. 강성희 멘토님의 수업을 수강하는 것은 실력을 빠른 기간에 높일 수 있는 좋은 기회가 될 것이라 생각합니다. 스타트업에서 개발자들을 보내 교육을 시켜도 좋을 것 같습니다. 개발자분들과 스타트업 임원진 분들께 추천드립니다.

Ref 2

이택경 CEO, MashUp Angels

前 다음 커뮤니케이션 CTO

데이타사이언스의 필요성은 향후 다양한 비즈니스 분야 전반에 걸쳐 더욱 커질것으로 예상되며, 이로인해 데이터 사이언스는 비즈니스의 중요한 한축이 될것입니다. 제가 담당하는 개발자들을 위해 데이터 사이언스 교육과정을 포함시켰고, 강성희 대표의 실습에 기반한 강의는 학생들에게 만족도가 높았습니다. 이후 수강생 중 한명은 매쉬업엔젤스 포트폴리오팀에 입사하기도 하였습니다. 데이터 사이언스에 관심 있는 분들에게 이 강의를 꼭 권하고 싶습니다.

Ref 3

정규환 CTO, VUNO

데이터분석 기술기반의 스타트업에서 CTO로 일하면서 가장 함께하고 싶은 인재는 문제 정의부터 분석 결과 도출하기 까지의 전과정에 필요한 스킬과 경험을 갖추고 있거나 혹은 빠르게 습득하여 합류 즉시 실제 업무에서 함께 일할 수 있는 개발자일 것입니다. 이러한 인재는 스스로의 다양한 현업 경험이나 시행착오로도 성장할 수 있지만, 훌륭한 프로그램의 체계적인 교육을 통해서도 육성될 수 있음을 이미 경험하고 있습니다. 본 강연은 많은 경험을 쌓은 최고의 강사진이 진행하는 만큼, 인공지능/빅데이터 시대에서 가장 중요한 역할을 할 데이터 개발자들이 다수 탄생할 수 있을 것으로 기대합니다.

Ref 4

최시원 CEO, ZOYI

이제 IT 시대가 아니라 DT(Data Technology) 시대 입니다. 쏟아지는 방대한 데이터에서 의미 있는 정보를 추출하는 능력이야 말고 미래의 핵심 가치가 될 것입니다. 많은 스타트업의 그로스 해킹 전략에 데이터의 분석, 인사이트 도출, 실험 및 결과 데이터를 재 분석하는 루프가 활용됩니다. 강성희님이야 말로 이런 새로운 시대를 준비하는 데 적격입니다. 강의를 통해 새로운 시대를 준비하고 능력을 배우게 됨으로써 한 단계 성장하는 기회가 되실 겁니다.

수업 일정 안내


입문반
62기
12/22(토요일) 시작 : 매 주 토요일 오전 10시 ~ 오후 3시 (5시간), 총 4회.
(12/22, 01/05, 01/12, 01/19) (단, 12/29(토)는 연말 연휴로 휴강)
입문반
속성반
6기
 속성반 
12/29(토), 12/30(일) 총 2회.
오전 10시 ~ 오후 8시 (10시간)
입문반
63기
 평일반 
01/03(목요일) 시작 : 매 주 목요일 오후 7시 30분 ~ 오후 11시 30분 (4시간), 총 5회.
(01/03, 01/10, 01/17, 01/24, 01/31)
입문반
64기
01/06(일요일) 시작 : 매 주 일요일 오전 10시 ~ 오후 3시 (5시간), 총 4회.
(01/06, 01/13, 01/20, 01/27)
입문반
65기
01/12(토요일) 시작 : 매 주 토요일 오후 4시 ~ 오후 9시 (5시간), 총 4회.
(01/12, 01/19, 01/26, 02/16) (단, 2/02(토), 02/09(토)는 구정 연휴로 휴강)
입문반
온라인
9기
 온라인 
01/12(토요일) 시작 : 매 주 토요일 오후 4시 ~ 오후 9시 (5시간), 총 4회.
(01/12, 01/19, 01/26, 02/16) (단 02/02(토), 02/09(토)는 구정 연휴로 휴강)
입문반
66기
01/26(토요일) 시작 : 매 주 토요일 오전 10시 ~ 오후 3시 (5시간), 총 4회.
(01/26, 02/16, 02/23, 03/02) (단, 2/02(토), 02/09(토)는 구정 연휴로 휴강)
입문반
속성반
7기
 속성반 
02/02(토), 02/03(일) 총 2회.
오전 10시 ~ 오후 8시 (10시간)
입문반
67기
02/17(일요일) 시작 : 매 주 일요일 오전 10시 ~ 오후 3시 (5시간), 총 4회.
(02/17, 02/24, 03/03, 03/10)
입문반
68기
 평일반 
02/21(목요일) 시작 : 매 주 목요일 오후 7시 30분 ~ 오후 11시 30분 (4시간), 총 5회.
(02/21, 02/28, 03/07, 03/14, 03/21)
실전 데이터분석반
3기
 평일반 
1/9(수요일) 시작 : 매 주 수요일 오후 7시 30분 ~ 오후 11시 30분 (4시간), 총 4회.
(1/9, 1/16, 1/23, 1/30)
실전 데이터분석반
4기
02/24(일요일) 시작 : 매 주 일요일 오후 4시 ~ 오후 8시 (4시간), 총 4회.
(02/24, 03/03, 03/10, 03/17)
실전 머신러닝반
4기
01/06(일요일) 시작 : 매 주 일요일 오후 4시 ~ 오후 8시 (4시간), 총 4회.
(01/06, 01/13, 01/20, 01/27)
실전 머신러닝반
5기
 평일반 
02/20(수요일) 시작 : 매 주 수요일 오후 7시 30분 ~ 오후 11시 30분 (4시간), 총 4회.
(02/20, 02/27, 03/06, 03/13)
딥러닝반
13기
 평일반 
01/08(화요일) 시작 : 매 주 화, 금 오후 8시 ~ 오후 11시 (3시간), 총 8회.
(01/08, 01/11, 01/15, 01/18, 01/22, 01/25, 01/29, 02/01)
딥러닝반
14기
 평일반 
02/19(화요일) 시작 : 매 주 화, 금 오후 8시 ~ 오후 11시 (3시간), 총 8회.
(02/19, 02/22, 02/26, 03/01, 03/05, 03/08, 03/12, 03/15)
입문반
58기
 평일반 
11/23(금요일) 시작 : 매 주 금요일 오후 7시 30분 ~ 오후 11시 30분 (4시간), 총 5회.
(11/23, 11/30, 12/07, 12/14, 12/21)
(수강 신청 마감)
입문반
59기
11/24(토요일) 시작 : 매 주 토요일 오전 10시 ~ 오후 3시 (5시간), 총 4회.
(11/24, 12/01, 12/08, 12/15)
(수강 신청 마감)
입문반
60기
12/02(일요일) 시작 : 매 주 일요일 오전 10시 ~ 오후 3시 (5시간), 총 4회.
(12/02, 12/09, 12/16, 12/23)
(수강 신청 마감)
입문반
61기
 강북 강의실 
12/08(토요일) 시작 : 매 주 토요일 오후 5시 ~ 오후 10시 (5시간), 총 4회.
(12/08, 12/15, 12/22, 01/05) (단, 12/29(토)는 연말 연휴로 휴강)
(수강 신청 마감)
입문반
온라인
8기
 온라인 
12/02(일요일) 시작 : 매 주 일요일 오전 10시 ~ 오후 3시 (5시간), 총 4회.
(12/02, 12/09, 12/16, 12/23)
(수강 신청 마감)
딥러닝반
12기
 평일반 
11/27(화요일) 시작 : 매 주 화, 목 오후 8시 ~ 오후 11시 (3시간), 총 8회.
(11/27, 11/29, 12/04, 12/06, 12/11, 12/13, 12/18, 12/20)
(수강 신청 마감)
실전 머신러닝반
3기
 평일반 
11/28(수요일) 시작 : 매 주 수요일 오후 7시 30분 ~ 오후 11시 30분 (4시간), 총 4회.
(11/28, 12/05, 12/12, 12/19)
(수강 신청 마감)
해당 조건에 맞는 수업이 없습니다.

장소 안내 및 준비물

DS스쿨 강남 강의장 Location large Location small
  • 주소: 강남구 테헤란로 111 신관 준경타워 8층
  • 강남역 12번 출구에서 1분 거리에 있는 커피빈 뒷 건물에 위치하고 있습니다.
  • 대건빌딩(커피빈건물) 1층 로비를 통과하여 뒷문으로 나가시면 준경타워 엘리베이터가 있습니다.
  • 교육장의 위치가 강남역에서 도보로 1분 거리에 있으므로 지하철을 이용하시면 편리합니다.
  • 자가용을 이용하시는 경우 강남역 근처에 있는 대륭타워 주차장(유료)을 추천해드립니다.
DS스쿨 강북 강의장 Location  gangbuk Location  gangbuk
  • 주소: 마포구 새창로 11 공덕빌딩 10층 대강의실
  • 공덕역 9번출구 1분 거리에 위치해 있습니다.
  • 5호선 / 6호선 / 경의중앙선을 타고 오시는 분들은 8번 출구로 나오셔서 2분 걸어오시면 됩니다.
  • 1층에 SKT가 입점한 검정색 빌딩 10층에 위치하고 있습니다.
  • 자가용을 이용하시는 경우 도화동 주민센터 주차장(유료) 이용을 권장해 드립니다.
준비물
  • 워크샵에 개인 노트북 지참 (필수)
  • 노트북이 필요하신 분은 사전에 요청하시면 대여해드립니다.

커리큘럼 설명

입문반 커리큘럼  |  

커리큘럼 다운로드

과정 소개 및 캐글(Kaggle) “Titanic: Machine Learning from Disaster” 경진대회 참여

  • 강의 개요. 자기소개.
  • 첫 번째 캐글 경진대회에 참석
  • 엑셀(내지는 구글 스프레드시트)를 활용한 기초적인 통계분석 해보기.
  • 강사의 파이썬을 활용한 데이터 분석 및 인공지능&머신러닝 알고리즘 활용 시연

DS School 데이터 사이언스 입문반의 대주제는 “데이터는 생각보다 어렵지 않으며, 누구든지 쉽게 데이터를 다룰 수 있다.”라는 것을 깨닫는 것입니다. 1주차 수업에서는 엑셀을 활용하여 데이터를 분석하는데, 간단한 엑셀 공식과 피벗 테이블(Pivot Table)만으로 데이터를 분석하는 방법을 체험합니다.

이번 수업에서는 데이터 사이언티스트의 온라인 경진대회 캐글(Kaggle)에 도전합니다. 첫 번째 경진대회는 RMS 타이타닉 해상사고의 데이터를 바탕으로, 유사한 해상사고가 발생했을 경우 어떤 승객이 생존하며, 또한 어떤 승객이 사망하는지를 예측하는 경진대회입니다.

매우 어려워 보이지만, 실습에 들어가면 데이터를 분석하는 일이 굉장히 쉽고 재미있다는 것을 알 수 있습니다. 수강생분들은 먼저 엑셀에서 사칙연산을 하는 방법과 제어문(IF)과 같은 간단한 엑셀 공식, 그리고 피벗 테이블(Pivot Table)을 활용하여 데이터를 분석하는 법을 배웁니다. 이후 전통적인 데이터 분석 방법인 1) 가설 수립, 2) 가설 검증, 3) 검증된 가설로 예측. 하는 세 가지 방식을 통해 생존자와 사망자를 예측합니다.

가령 1) "여성인 경우 해상사고에서 탈출 우선순위가 높기 때문에 생존율이 높다.”는 가설을 세웠으면 (가설 수립) 2) 엑셀의 피벗 테이블(Pivot Table)로 여성일 경우의 생존율과 남성일 경우의 생존율을 비교합니다. (가설 검증), 3) 가설 검증이 완료되었으면 제어문(IF)을 활용해 a) 승객이 남성일 경우 사망했다고 예측하고, b) 여성일 경우 생존했다고 예측합니다. (검증된 가설로 예측)

이 예측 결과를 캐글(Kaggle)에 제출하면, 몇 명의 승객을 맞췄는지에 대한 정답률을 알려줍니다.

이후 수강생분들끼리 팀을 짜서 자율 실습에 들어갑니다. 실습 목표는 경진대회의 상위 25% (예측 정확도 약 78.947%)에 도달하는 것입니다. 만일 첫 수업에서 상위 25%에 도달할 수 있다면 데이터 사이언티스트로서의 소질이 있다고 판단할 수 있습니다. 실습이 끝나면 가장 점수가 높은 수강생을 뽑아서 개인 인터뷰와 선물 증정식을 합니다.

자율 실습이 끝나면, 마지막으로 강사가 프로그래밍 시연을 합니다. 프로그램 언어 파이썬(python.org), 데이터 분석 패키지 판다스(Pandas), 데이터 시각화 패키지 시본(Seaborn), 마지막으로 인공지능&머신러닝 알고리즘 중 하나인 의사결정나무(Decision Tree)를 활용해 데이터를 분석하고 그 결과를 캐글에 제출합니다. 목표는 마찬가지로 경진대회 상위 25%에 해당하는 78.947%의 예측 정확도를 달성하는 것입니다.

수업 신청 하러가기 >

프로그래밍 언어 파이썬(Python)과 관련 데이터 분석 패키지를 학습하기. 학습이 끝난 후 Titanic: Machine Learning from Disaster 경진대회에 재도전.

2주차 수업에서는 본격적으로 데이터 분석을 배우며, 크게 다음의 툴을 학습합니다.

  1. 프로그래밍 언어 파이썬(Python)
  2. 파이썬의 데이터 분석 패키지 판다스(Pandas)
  3. 파이썬의 인공지능&머신러닝 패키지 싸이킷런(scikit-learn)
  4. 머신러닝 알고리즘 의사결정나무(Decision Tree)

위 네 개의 툴을 사용하는 법을 배웠다면, 마지막으로 1 ~ 4번을 조합하여 타이타닉 경진대회에 재도전합니다. 이번에는 엑셀이 아닌 파이썬을 활용하여 상위 25% (예측 정확도 78.947%)에 도전하며, 실습이 끝난 뒤에는 강사가 경진대회 상위 5% (예측 정확도 81.818%)에 도달할 수 있는 노하우를 공유합니다.

2주차에 학습할 툴에 대한 상세 설명은 다음과 같습니다.

파이썬

파이썬(Python)은 데이터 분석과 인공지능 분야에서 가장 많이 쓰이는 프로그래밍 언어입니다. 파이썬은 고레벨 프로그래밍 언어(High-Level Programming Language)답게 매우 직관적이면서 사람이 이해하기 쉬우며, 숙련자는 물론 프로그래밍 언어를 처음 접해보는 사람도 단기간에 배울 수 있습니다.

이번 수업에서는 파이썬의 다음 기능을 배울 것입니다.

  • 파이썬의 기본 연산. 덧셈, 뺄셈, 곱셈, 나눗셈, 나머지 연산자 등.
  • 파이썬의 비교 연산. 등호(==)와 부등호(!=), 이상, 이하, 미만, 초과 등.
  • 파이썬의 변수. 변수를 할당하는 법과 사용하는 법 등.
  • 파이썬의 다양한 데이터 타입. 숫자, 문자열(텍스트), 리스트(배열) 등.
  • 파이썬의 제어문과 반복문. if-else와 for 등.
  • 파이썬의 함수와 그 응용 등.

판다스

판다스(Pandas)는 파이썬에서 자주 쓰이는 데이터 분석 패키지입니다. 판다스에서는 엑셀에서 사용하는 기능을 그대로 쓸 수 있는데, 엑셀에 비해서 1) 대용량 데이터를 다루는 데 적합하며 (엑셀은 데이터의 용량이 100메가만 넘어가면 느려집니다), 2) 엑셀보다 훨씬 복잡한 기능을 코드 몇 줄로 구현할 수 있습니다. 3) 또한 파이썬을 기반으로 동작하기 때문에 데이터 분석 결과를 다양한 분야에 응용할 수 있습니다. (ex: 데이터베이스에 저장하기, 웹페이지에 띄우기, 머신러닝 알고리즘에 집어넣기 등)

이번 수업에서는 판다스의 다음 기능을 배울 것입니다.

  • 판다스로 분석할 데이터를 읽어오고 저장하기.
  • 판다스로 데이터의 행렬(row/column) 검색하기.
  • 판다스로 데이터를 색인(indexing) 하기.
  • 판다스로 데이터를 통계분석 하기. (pivot_table, crosstab, etc)
  • 판다스로 데이터에 새로운 컬럼을 추가하거나 기존 컬럼값을 수정하기.
  • 판다스로 복잡한 기능을 구현하기. (apply)

싸이킷런 + 의사결정나무

싸이킷런(scikit-learn)은 파이썬에서 인공지능&머신러닝에 관련된 알고리즘을 하나로 묶어놓은 패키지입니다. 싸이킷런을 활용하면 알고리즘을 직접 구현할 필요 없이, 이미 만들어진 구현체를 파이썬으로 가져와 사용하면 됩니다.

이번 수업에서는 싸이킷런의 대표적인 머신러닝 알고리즘인 의사결정나무(Decision Tree)를 활용할 것이며, 크게 다음 기능을 배울 것입니다.

  • 싸이킷런에서 머신러닝 알고리즘을 가져오기.
  • 가져온 알고리즘에 데이터를 넣어 학습(fitting) 시키기.
  • 학습이 끝난 데이터로 특정 상황을 예측(predict) 하기.
  • 의사결정나무(Decision Tree)의 분석 결과를 시각화해서 보기.
수업 신청 하러가기 >

캐글의 새로운 경진대회 Bike Sharing Demand 참여하기.

  • 타이타닉 경진대회에 이은 Bike Sharing Demand 경진대회 에 참석.
  • 데이터 분석을 통해서 인사이트를 얻을 수 있는 탐험적 데이터 분석(Exploratory Data Analysis) 배우기.
  • 팀을 짠 뒤 경진대회 실습. Bike Sharing Demand 상위 25%에 도전해보기.
  • 실습이 끝난 뒤 강사의 시연으로 Bike Sharing Demand 상위 10% 후반에 진입하는 노하우를 배우기.

이번 시간에는 2주차에서 학습한 내용을 바탕으로 새로운 경진대회에 참가합니다. Capital Bikeshare 라는 워싱턴 D.C. 소재의 자전거 대여 스타트업에서 제공한 데이터를 바탕으로, 2011년도와 2012년도의 시간당 자전거 대여량을 예측하는 경진대회에 참석합니다.

기존에 참여한 타이타닉 경진대회와 전혀 달라 보이지만, 우리가 이전까지 배운 지식을 이번 경진대회에서도 그대로 활용할 수 있습니다. 여기에 더불어, 3주차에서는 데이터를 분석하여 그 결과를 머신러닝 알고리즘에 적용하는 탐험적 데이터 분석(Exploratory Data Analysis, 이하 EDA)에 대해서 배웁니다. 정확하게는 다음의 데이터 분석 노하우를 배울 것입니다.

  • 기존에 보유하고 있는 데이터에서 새로운 정보를 추출하는 Feature Engineering.
  • 기존에 보유하고 있는 데이터에서 필요 없는 정보를 제거하는 Feature Selection.
  • 비어있는 값을 제거하거나, 전체 분포와 동떨어져 있는 아웃라이어(outlier)를 제거하는 Data Cleaning.
  • 캐글(Kaggle)에 제출하지 않고도 현재 구현한 예측 모델의 정확도를 측정할 방법. (Cross Validation)

또한 3주차에는 의사결정나무(Decision Tree)의 업그레이드 버전인 랜덤 포레스트(Random Forest)를 학습합니다. 이 알고리즘은 대부분 의사결정나무보다 더 좋은 성능을 보장하는 강력한 알고리즘입니다. 이 알고리즘의 원리와 사용 방법을 배우면 더 정확한 예측 모델을 구현할 수 있습니다.

이번 실습의 최종 목표는 Bike Sharing Demand 경진대회의 상위 25% 안에 드는 것입니다. 2주차에서 배운 내용과 3주차에서 새롭게 배운 내용을 조합하면 어렵지 않게 상위 25%에 도달할 수 있습니다. 실습이 끝나면 마지막으로 강사의 시연을 통해 Bike Sharing Demand 경진대회의 상위 25%, 더 나아가서 10% 후반대에 도달할 수 있는 노하우를 공유합니다.

수업 신청 하러가기 >

데이터 시각화(Data Visualization)를 배운 뒤, 다시 한번 Bike Sharing Demand 경진대회에 참석하기.

  • matplotlibSeaborn을 활용한 데이터 시각화 실습하기.
  • Bike Sharing Demand 경진대회에 재도전, 상위 10%에 도전해보기.
  • 실습이 끝난 뒤 강사의 시연으로 Bike Sharing Demand 상위 5%에 진입하는 노하우를 배우기.

이번 시간에는 새로운 데이터 분석 방식인 데이터 시각화(Data Visualization)를 배웁니다. 데이터 시각화 패키지는 파이썬에서 가장 많이 사용하는 matplotlibSeaborn을 사용하며, 히스토그램(histogram)이나 bar plot, scatter plot 등의 시각화 방법과 그 결과를 해석하는 방법을 배웁니다.

데이터 시각화를 배웠으면 3주차에 이어 다시 한번 Bike Sharing Demand 에 도전합니다. 이번 실습에는 판다스(Pandas)를 활용한 데이터 분석 노하우와 matplotlib, Seaborn을 활용한 데이터 시각화 노하우를 병행합니다. 또한 이외에도 다음의 내용을 추가로 배울 것입니다.

  • 예측 모델이 잘 만들어졌는지를 정량적으로 판단할 수 있는 측정 공식. (Evaluation Metrics)
  • 머신러닝 알고리즘(ex: 랜덤 포레스트)을 튜닝하여 성능을 끌어올릴 수 있는 하이퍼패러미터 튜닝. (Hyperparameter Tuning)
  • 측정 공식(Evaluation Metrics)을 분석하여 이에 맞게 데이터를 수정하거나 머신러닝 모델을 개선하는 노하우.

마지막으로 4주차에는 랜덤 포레스트(Random Forest)를 넘어서서, 가장 강력한 머신러닝 알고리즘인 그래디언트 부스팅 트리(Gradient Boosting Tree)를 배웁니다. 이 알고리즘은 1) 구조화된 데이터(Structured Data)에 한하여 언제나 최고의 성능을 보장하며, 2) 현장에서도 자주 쓰이는 매우 실용적인 알고리즘입니다. 이번 수업에서는 가장 뛰어난 그래디언트 부스팅 트리의 구현체인 XGBoostLightGBM을 사용합니다.

이번 실습의 최종 목표는 Bike Sharing Demand 경진대회의 상위 10% 안에 드는 것입니다. 일반적으로 캐글 경진대회에서 상위 10% 안에 진입한 사람은 프로페셔널한 데이터 사이언티스트로 간주합니다. (해당 참석자에게는 캐글에서 공인하는 동메달 마크가 부여됩니다) 만일 4주차 수업에서 스스로의 힘으로 상위 10%에 도달할 수 있다면, 데이터 사이언티스트로서 충분한 재능을 보유하고 있다고 판단할 수 있습니다.

실습이 끝나면 마지막으로 강사가 간단한 시연을 통해 Bike Sharing Demand 경진대회의 상위 5% 이내에 진입할 수 있는 노하우를 공유합니다. 캐글에서는 상위 5%에 진입한 사람을 프로 중에서도 특출나게 뛰어난 데이터 사이언티스트로 간주합니다. (해당 참석자에게는 캐글에서 공인하는 은메달 마크가 부여됩니다) 입문반 수업을 통해 경진대회 상위 5%의 노하우를 습득할 수 있다면, 데이터 사이언티스트 되는 데 필요한 지식은 거의 습득했다고 가정해도 무방합니다.

마지막으로 수업이 끝난 뒤, 수강생분들이 앞으로 스스로 공부를 하는 데 도움이 될 자료를 공유합니다. 파이썬, 판다스, 인공지능&머신러닝을 추가로 공부하는 데 도움이 될 서적과 인터넷 자료를 소개하고, 다른 경진대회에 도전하고 싶은 분들을 위해 추천할만한 주요 캐글 경진대회를 소개합니다. 또한, 해당 경진대회 상위권에 도달할 수 있는 다양한 팁을 공유한 뒤 수업을 마무리합니다.

수업 신청 하러가기 >

실전 데이터분석반 커리큘럼  |  

커리큘럼 다운로드

첫 수업에서는 데이터 분석의 기본을 배웁니다. 데이터 분석(Data Analytics)의 의미와 역할, 데이터 분석을 통해 얻을 수 있는 것을 배운 뒤, 파이썬의 데이터 분석 패키지 판다스(Pandas)를 학습합니다.

판다스(Pandas)를 사용하면 대용량의 데이터를 효율적으로 분석할 수 있고, 복잡한 분석도 파이썬을 활용해 간단하게 처리할 수 있습니다. 수업에서는 판다스의 가장 기본적인 데이터 형식인 데이터프레임(DataFrame)의 사용법부터, 데이터에서 행렬을 가져오고, 색인하고, 정렬하고, 잘못된 데이터를 정리하는 법 등을 배웁니다. 또한 피벗 테이블(pivot_table)과 같은 간단한 분석 노하우도 배울 수 있습니다.

판다스(Pandas)를 모두 배웠으면, 헬스케어 스타트업 눔(Noom)의 데이터를 활용해 분석을 시작합니다. 먼저 잘못된 회원 정보(몸무게가 너무 높거나, 키가 너무 작거나)를 정리하는 데이터 클리닝(Data Cleaning)을 진행한 뒤, 다음의 질문에 대해 데이터에 기반한 답을 제시합니다.

  • 눔(Noom)을 사용하는 무료 사용자들은 주로 어느 시간대에 유료 사용자로 전환하는가? (ex: 새벽, 낮, 주중, 주말) - 이 사실을 알 수 있다면, 해당 시간대에 유료 서비스 구매를 촉진하는 이메일을 보냄으로써 회사의 매출을 올릴 수 있습니다.
  • 눔(Noom)을 사용하는 무료 사용자 중, 유료 사용자로 전환할 확률이 가장 높은 연령/성별은 어디인가? - 이 사실을 알 수 있다면, 해당 연령/성별에 집행하는 마케팅 예산을 늘릴 수 있습니다. (가령 30대 여성이 유료 결제 확률이 높다면, 페이스북에서 30대 여성에게 광고를 더 많이 보여줘야겠죠) 반면 정 반대의 경우에는 마케팅 예산을 줄임으로써 더 효율적인 마케팅을 할 수 있습니다. (가령 50~60대 남성은 유료 결제 확률이 낮다면, 페이스북 마케팅에서 이분들에게는 광고를 노출하지 않는 것도 좋은 방법입니다)
  • 유료 사용자를 코칭하는 코치 중, 어느 코치가 가장 만족도가 높은가? - 만족도가 높은 기준은 사용자가 계속 유료 서비스를 이용하는가로 판단할 수 있습니다. 즉, 고객 이탈률(churn rate)이 가장 낮은 코치가 가장 뛰어난 코치라고 판단할 수 있습니다. 반면, 고객 이탈률(churn rate)이 높은 코치일수록 사용자가 가장 불만족스러워한다고 판단할 수 있습니다.
수업 신청 하러가기 >

두 번째 수업에서는 여러 개의 데이터를 하나로 합쳐서 사용하는 법과 데이터베이스에서 필요한 정보를 가져올 방법을 배웁니다. 대부분의 경우, 데이터는 하나의 파일(excel, csv, etc)로 저장되어 있지 않습니다. 효율적으로 데이터를 저장하기 위해 여러 개의 작은 파일로 나누어져 있으며, 데이터를 분석할 때는 이렇게 여러 개로 나눠진 데이터를 하나로 합치는 방법을 배워야 합니다. 또한 데이터는 CSV와 같은 파일 형식이 아닌 MySQL, MSSQL, Oracle과 같은 전문적인 프로그램(일명 데이터베이스)에 저장된 경우도 있습니다. 이 경우 SQL(Structured Query Language)이라는, 데이터베이스를 위한 별도의 프로그래밍 언어를 사용해야 합니다.

이번 수업에서는 판다스에서 여러 개의 데이터를 하나로 합치는 merge, join, concat 등의 기능, 그리고 데이터 분석가에게 필요한 SQL 문법을 압축적으로 배울 것입니다.

여러 개의 데이터를 합치는 법을 배웠으면, 데이터사이언스 교육 스타트업 DS School의 마케팅 데이터와 결제 데이터를 분석합니다. 분석 목표는 어느 마케팅 채널이 가장 효율적이며, 반대로 어느 마케팅 채널이 가장 효율적이지 않은가? 입니다. 효율적인 마케팅 채널이 있다면 해당 채널에 마케팅 예산을 집중하고, 반면에 효율적이지 않은 채널이 있다면 해당 마케팅 채널에 집행한 예산을 줄일 수 있습니다. 마케팅 효율에 대한 구체적인 질문은 다음과 같습니다.

  • DS School의 수강생은 어떠한 목적을 달성하기 위해 수업을 신청하였는가? - DS School 수강생의 구매 전 설문 조사를 바탕으로 이 내용을 분석할 수 있습니다. 이 분석 결과를 바탕으로 수업의 내용을 변경하거나, 난이도를 조정하거나, 수강생의 니즈에 맞는 신규 커리큘럼을 만드는 것도 가능합니다.
  • DS School이 보유한 마케팅 채널 중 가장 효율이 높은 채널은 어떤 것인가? - DS School은 주로 페이스북 마케팅을 활용하는데, 이 채널당 고객 획득 비용(Customer Acquisition Cost, 이하 CAC)과 고객 생애 가치(Customer Lifetime Value, 이하 LTV)를 계산한 뒤 LTV/CAC 비율이 가장 효율적인 마케팅 채널 순으로 정렬합니다. 가장 효율이 높은 채널을 파악할 수 있다면, 이 채널에 예산을 집중하거나 이 채널이 효과가 좋은 이유를 분석해서 새로운 마케팅 채널과 컨텐츠를 생성할 수 있습니다.
  • DS School의 매출 변화는 어떻게 되는가? - DS School의 강연이 가장 잘 팔리는 시기(시간, 내지는 주중/주말 등)를 파악한 뒤 그 시기에 구매를 유도하는 이메일을 발송할 수도 있고, 현재의 매출 변화량을 바탕으로 누적 매출이나 예상 매출 등을 리포트 방식으로 시각화시킬 수도 있습니다.
수업 신청 하러가기 >

세 번째 수업에서는 앞서 배운 판다스와 SQL 노하우와 더불어, 데이터를 시각화한 뒤 이 결과를 바탕으로 결론을 도출하는 방법을 배웁니다.

데이터 시각화는 주어진 데이터를 직관적으로 표현할 수 있다는 장점이 있으며, 그렇기 때문에 분석 결과를 다른 사람에게 이해시키고 설득할 수 있도록 도와줍니다. 하지만 효과적이고 직관적인 데이터 시각화를 위해서는, 이를 위한 적절한 시각화 그래프나 도표를 사용해야 합니다.

이번 수업에서는 파이썬의 데이터 시각화 패키지인 seaborn이나 matplotlib등을 활용하여 데이터를 분석하고 시각화 할 수 있는 방법을 배웁니다. 이 방법을 활용하면 파이썬과 판다스, 쥬피터 노트북으로 직관적이고 편리한 시각화 대시보드를 구현할 수 있습니다.

데이터 시각화를 배웠다면, 다음으로는 국내 최대의 여성 의류 쇼핑몰 플랫폼 지그재그(ZIGZAG)의 고객 행동 패턴을 분석합니다. 이번 목표는 사용자의 액티비티를 바탕으로 고객의 니즈나 주요 여성 의류 쇼핑몰들의 특징을 분석하는 것입니다. 또한 이번 수업에서는 데이터 분석가를 위한 분석뿐만 아니라, 기획자, 마케터, 내지는 팀 내의 의사결정권자에게 데이터를 직관적으로 이해시킬 수 있는 시각화 방법을 배울 것입니다. 구체적인 분석은 다음과 같습니다.

  • 고객들은 지그재그에서 어떠한 과정을 거쳐서 상품을 구매하는가 - 이러한 행동 패턴을 분석하면 고객의 구매 루트를 최적화하거나, 구매하지 않고 이탈할 사용자를 붙잡아서 매출을 증대할 수 있습니다.
  • 고객들이 선호하는 여성 의류 쇼핑몰들은 어디인가? - 이 사실을 파악할 수 있으면, 고객이 서비스를 이용하는 과정 중에 (내지는 이용 후에 이메일을 통해) 쇼핑몰이나 상품을 추천한 뒤 고객에게 상품을 업셀(up sell, 추가로 구매하도록 유도)할 수 있습니다.
수업 신청 하러가기 >

마지막 수업에서는 기존에 배운 내용 외에도, 수강생분들이 앞으로 데이터 분석가로서 활동할 때 알아뒀으면 하는 부분들을 다룹니다. 판다스에서 데이터를 효율적으로 읽고 저장하는 방법, 텍스트 파일(특히나 한글 데이터)를 읽다가 문제가 발생할 경우 이를 해결하는 방법, 대용량의 데이터를 효율적으로 분석하고 저장하는 방법 등에 대해 집중적으로 배웁니다.

마지막 수업에서는 그동안 배운 내용을 총동원하여, 한 명의 데이터 분석가로서 수강생이 어느 정도의 실력을 갖추고 있는지 검증하는 시간을 가질 것입니다. 이번 수업에서는 프리랜서 오픈마켓 서비스 크몽(Kmong)의 사용자 데이터를 분석할 것입니다. 주요 분석 과제는 다음과 같습니다.

  • 크몽 사용자의 웹 행동 데이터, 그리고 앱 행동 데이터를 정리하기 - 크몽의 고객들은 웹, 아이폰, 안드로이드등 다앙한 디바이스와 OS로 서비스를 이용하고 있습니다. 이 디바이스에서 쌓인 내용을 분석할 수 있도록 깔끔하게 정리한 뒤, 여러 개로 나누어진 데이터를 판다스의 merge나 concat등을 활용해 하나로 묶어주는 작업을 할 것입니다.
  • 크몽 사용자들의 유입 경로, 검색 키워드를 분석하기 - 크몽의 고객들은 네이버나 페이스북 등 다양한 경로를 통해 서비스를 방문합니다. 이 사용자들이 어떤 채널(네이버, 페이스북, etc)을, 어떤 키워드나 컨텐츠를 통해 방문할는지 분석을 할 수 있다면 마케터들이 신규 광고 컨텐츠를 만들거나 검색 키워드를 늘리는데 도움을 줄 수 있을 것입니다.
  • 크몽 사용자들의 구매 루트 분석하기 - 크몽의 고객들이 서비스에 유입되었다면, 무언과의 과정을 통해 컨텐츠를 살펴보고, 검토한 뒤 구매를 결정했을 것입니다. 이 과정에서 고객이 구매를 결정할 수 있었던 요소를 분석할 수 있다면, 서비스 차원에서 이를 더 강조하거나 부족한 부분을 충원한다면 고객들이 구매를 결정하는 데 도움을 줄 수 있고, 이는 서비스의 매출 증대로 이어질 수 있을 것입니다.
수업 신청 하러가기 >

4주간의 수업이 모두 끝나면, 여태까지 분석한 컨텐츠 외의 추가 과제가 수강생들에게 제공될 것입니다.

추가 과제는 3주차 수업인 지그재그 데이터와 4주차 수업인 크몽의 데이터를 활용한 각각 10개의 추가 과제가 주어집니다. 만일 데이터분석가로 취업하거나 이직하길 원하는 분들이 있다면, 해당 과제를 푼 뒤 이력서와 함께 제출하면 관련 자료가 각각의 스타트업으로 전달됩니다.

전달 후 스타트업 담당자분의 검토를 거쳐, 데이터분석가로서 활동할 수 있는 충분한 소질이 있다고 판단될 경우 본격적으로 면접 진행 절차를 밟게 될 것입니다.

수업 신청 하러가기 >

실전 머신러닝 커리큘럼  |  

커리큘럼 다운로드

머신러닝의 기본 개념에 대한 설명, 의사결정나무(Decision Tree)의 알고리즘의 이론과 실제 구현을 해보기

  • 머신러닝 알고리즘에 대한 설명. 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)에 대한 설명
  • 주로 어떤 데이터셋에 어떤 알고리즘을 사용하는가? 구조화된 데이터셋(Structured Dataset) vs 비구조화된 데이터셋(Unstructured Dataset)을 중심으로 설명
  • 의사결정나무(Decision Tree)의 이론에 대한 설명. 그리고 의사결정나무(Decision Tree) 알고리즘을 실제 구현해보기

첫 번째 수업에서는 머신러닝 알고리즘에 대한 기본적인 설명부터 시작합니다. 머신러닝의 기본 개념인 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)에 대해 살펴보고, 그 차이점과 장단점에 대해 살펴봅니다. 또한 데이터셋마다 가장 효과를 낼 수 있는 알고리즘에 대해 살펴보며, 주로 구조화된 데이터셋(Structured Dataset)과 비구조화된 데이터셋(Unstructured Dataset)을 중심으로 살펴봅니다.

이후 첫 번째 머신러닝 알고리즘으로, 가장 기초적인 알고리즘 중 하나인 의사결정나무(Decision Tree)에 대해 살펴봅니다. 의사결정나무의 기본적인 동작 방식과, 의사결정나무 알고리즘의 핵심이 되는 지니 불순도(Gini Impurity)에 대해서 다룹니다. 이후 프로그래밍 언어 파이썬을 통해 의사결정나무를 직접 작성하고 실행해봅니다.

수업 신청 하러가기 >

앙상블(Ensemble) 알고리즘을 통해 의사결정나무의 성능을 업그레이드하기

  • 앙상블(Ensemble) 알고리즘에 대한 설명.
  • 앙상블 알고리즘의 일종인 배깅(Bagging, 내지는 Bootstrap Aggregating)의 원리를 알아보고, 이를 의사결정나무(Decision Tree) 알고리즘에 적용한 새로운 알고리즘 랜덤 포레스트(Random Forest)에 대해 알아보기
  • 마찬가지로 앙상블 알고리즘의 일종인 부스팅(Boosting)과 그래디언트 부스팅(Gradient Boosting)의 원리를 알아보고, 이를 의사결정나무(Decision Tree) 알고리즘에 적용한 그래디언트 부스팅 머신(Gradient Boosting Machine)에 대해 알아보기.

2주 차에서는 여러 개의 머신러닝 모델을 섞어서 성능을 끌어올리는 앙상블(Ensemble) 알고리즘에 대해 살펴봅니다. 가장 유명한 앙상블 알고리즘인 배깅(Bagging)과 부스팅(Boosting), 그리고 부스팅의 업그레이드 버전인 그래디언트 부스팅(Gradient Boosting)에 대해서 살펴보고, 이 앙상블 알고리즘 간의 차이점과 장단점을 살펴봅니다.

이후 이 앙상블 알고리즘을 의사결정나무(Decision Tree) 알고리즘에 적용합니다. 먼저 의사결정나무에 배깅(Bagging) 알고리즘을 적용한 랜덤 포레스트(Random Forest)에 대해 살펴보고, 마찬가지로 그래디언트 부스팅(Gradient Boosting) 알고리즘을 적용한 그래디언트 부스팅 머신(Gradient Boosting Machine)을 살펴봅니다. 이후 프로그래밍 언어 파이썬을 통해 이 알고리즘들을 직접 작성하고 실행해봅니다.

수업 신청 하러가기 >

가장 강력한 그래디언트 부스팅 머신(Gradient Boosting Machine) 구현체인 XGBoost, LightGBM, CatBoost를 살펴보고 이 알고리즘을 튜닝하는 방법을 배우기

  • 그래디언트 부스팅 머신(Gradient Boosting Machine)의 다양한 구현체에 대한 설명
  • 왜 이 구현체를 사용하는 것이 그래디언트 부스팅 머신(Gradient Boosting Machine)를 직접 구현하는 것보다 성능이 좋은가?
  • 가장 강력한 그래디언트 부스팅 머신(Gradient Boosting Machine)의 구현체 비교: XGBoost, LightGBM, CatBoost.
  • 그래디언트 부스팅 머신(Gradient Boosting Machine)의 하이퍼패러미터(Hyperparameter)에 대해 살펴보기
  • 하이퍼패러미터(Hyperparameter)를 튜닝하는 다양한 방식을 살펴보기

3주 차에서는 머신러닝을 실용적인 관점에서 접근합니다. 먼저 그래디언트 부스팅 머신(Gradient Boosting Machine)을 사용하기 쉽도록 구현한 세 가지 파이썬 패키지(XGBoost, LightGBM, CatBoost)를 살펴본 뒤 이 패키지들의 장단점에 대해 살펴봅니다. 또한 왜 기존의 그래디언트 부스팅 머신 패키지(ex: scikit-learn)에 비해 XGBoost, LightGBM, CatBoost이 더 성능이 좋은지도 살펴봅니다.

이후 그래디언트 부스팅 머신(Gradient Boosting Machine)의 성능을 튜닝할 수 있는 하이퍼패러미터(Hyperparameter)에 대해 다룹니다. 가장 중요한 하이퍼패러미터들(ex: 트리의 깊이, 갯수 등)과 이 역할, 각각의 튜닝 방식에 대해 살펴보고, 마지막으로 모든 하이퍼패러미터를 동시에 튜닝하는 방법(ex: Grid Search, Random Search)에 대해 살펴봅니다.

수업 신청 하러가기 >

지금까지 배운 지식을 총동원하여, 데이터 사이언스 경진대회 캐글(Kaggle)에 참여하여 상위권 성적을 노리기.

  • 데이터 사이언스 경진대회 캐글(Kaggle) 소개.
  • 캐글 Otto Group Product Classification Challenge 경진대회 소개
  • 그래디언트 부스팅 머신 + 하이퍼패러미터 튜닝으로 캐글 경진대회 상위권에 도전하기

마지막 4주 차에는 그래디언트 부스팅 머신(Gradient Boosting Machine)을 실전에 적용해봅니다. 데이터 사이언티스트들이 참여하는 온라인 경진대회 캐글(Kaggle)에 도전하며, 주어진 정보를 활용해 전자상거래(ex: 쿠팡, 11번가) 서비스의 상품을 분류하는 Otto Group Product Classification Challenge에 참여합니다.

이 경진대회에서는 데이터를 분석하는 스킬도 중요하지만, 그보다 머신러닝 알고리즘에 대한 이해와 하이퍼패러미터 튜닝 방법을 숙지하는 것이 더 중요합니다. 이번 경진대회에서의 목표 등수는 상위 10%입니다. 보통 캐글에서는 상위 10% 안에 든 참석자를 현장에서 당장 일할 수 있는 실력을 갖추었다고 평가하는데, 만일 스스로의 힘으로 상위 10% 안에 들 수 있다면 수업을 충분히 따라왔다고 볼 수 있고, 머신러닝에 관해서는 당장 즉시 전력으로 현장에 투입될 수 있는 실력을 갖췄다고 볼 수 있습니다.

수업 신청 하러가기 >

딥러닝반 커리큘럼  |  

커리큘럼 다운로드

첫 수업에서는 딥러닝이 정확하게 어떤 알고리즘이며, 왜 현재의 인공지능 붐을 주도하게 되었는지 설명합니다.

강의에 대한 소개가 끝나면, 먼저 가장 기본적인 딥러닝 알고리즘인 Single-layer neural network 알고리즘을 배우고 이를 직접 구현해봅니다. 가장 단순한 구현 방식(ex: Random Search)부터 시작해, 가장 효과적이며 모든 딥러닝 알고리즘의 기본이 되는 Gradient Descent 알고리즘까지 직접 구현합니다.

Single-layer neural network의 원리와 구현 방법을 배웠으면, 보스턴의 부동산 관련 정보를 데이터로 정리한 Boston housing dataset 을 활용해 부동산의 집값을 예측하는 알고리즘을 Single-layer neural network로 구현합니다.

수업 신청 하러가기 >

1회차에서는 Single-layer neural network를 활용해 Regression problem (우리가 예측하려는 값이 정수형이고, 그 높고 낮음을 예측하는 문제. 부동산이나 주식의 집값 예측 등)을 풀어보았습니다. 이번 회차에는 1회차에서 배운 내용을 응용하여, 예측하려는 값이 어느 분류에 속하는지를 판단하는 Classification problem (상품 카테고리 분류, 폐암의 양성/음성 여부 등)을 해결하는 Single-layer neural network를 구현합니다.

이후 우편번호의 필기체 이미지를 정리한 MNIST 데이터셋을 활용하여, 이미지에 아무런 사전 처리(preprocessing)를 거치지 않은 채 픽셀과 RGB 값만 넣으면 그 안에 그려져 있는 숫자를 스스로 인식하는 숫자 인식 알고리즘을 Single-layer neural network로 구현합니다.

수업 신청 하러가기 >

Single-layer neural network는 굉장히 강력한 알고리즘이지만, 몇 가지 문제점을 가지고 있습니다. 이번 시간에서는 Single-layer neural network가 가지고 있는 가장 큰 문제점 중 하나인 XOR problem에 대해서 살펴보고, 이를 해결할 수 있는 다양한 방법, 그리고 이 방법을 활용해 Single-layer neural network에 Hidden Layer이라는 개념을 도입함으로써 알고리즘의 성능을 크게 개선한 Multi-layer neural network에 대해서 배웁니다.

이후 Multi-layer neural network를 활용하여 Single-layer neural network보다 더 강력한 이미지 인식 알고리즘을 구현해보고, 이 알고리즘을 2회 차에서 사용한 MNIST 데이터셋에 적용한 뒤 그 결과를 기존 방식과 비교합니다.

수업 신청 하러가기 >

이번 시간부터는 딥러닝을 이미지에 적용하는 방법을 본격적으로 배웁니다. Multi-layer neural network를 이미지에 적용할 때 생기는 여러 가지 문제점(과다한 메모리 사용, 비효율적인 연산 등)을 살펴보고, 이 문제점을 Convolutional Layer와 Pooling Layer라는 개념을 도입하여 해결한 Convolutional neural network(이하 CNN)에 대해 배웁니다. 이후 CNN을 활용하여 MNIST 데이터셋에 적용한 뒤, 이 결과를 Multi-layer neural network와 비교합니다.

CNN을 배웠으면, 마지막으로 딥러닝을 활용한 이미지 분류의 발전사를 간략하게 살펴봅니다. CNN이라는 개념이 처음 공개되었던 1998년부터 지금까지 CNN이 어떻게 발전했는지 살펴보고, 이 과정을 통해 우리는 앞으로 무엇을 더 배워야 할지 정리합니다. CNN을 활용한 이미지 분류(Image Recognition)의 가장 기본이 되는 LeNet5(1998)부터, 딥러닝 혁명을 이끈 초기 모델인 AlexNet(2012), 이어지는 GoogLeNet(2014)과 VGGNet(2014), ResNet(2015)을 살펴보고, 마지막으로 ResNet을 더 개선한 WideResNet(2016), ResNeXt(2016), SENet(2017) 등에 대해서도 살펴봅니다.

수업 신청 하러가기 >

오늘부터는 4회차에서 프리뷰한 내용을 바탕으로 CNN을 개선할 수 있는 구체적인 팁과 노하우를 하나하나 배웁니다.

먼저 우리가 지금까지 사용했던 sigmoid라는 Activation Function의 단점을 알아봅니다. sigmoid 함수의 양 끝에 도달하면 기울기(gradient)가 죽어버리는 현상, 그리고 Gradient Descent 알고리즘을 돌리면 우리가 업데이트해야 하는 weight가 지그재그로 업데이트되는 현상 등을 살펴봅니다. 이후 이 단점을 해결한 다른 대안들(tanh, ReLU, LReLU, PReLu, Leacky ReLU, ELU, Maxout, SReLU)과 그 구체적인 효과에 대해서도 배워봅니다.

수업 신청 하러가기 >

이번 회차는 weight를 어떻게 초기화해야 하는지에 대해서 알아봅니다. weight는 우리가 딥러닝 알고리즘을 통해 실질적으로 구해야 하는 값이라고 볼 수 있는데, 이 weight를 올바르게 초기화한 뒤 업데이트를 시작하지 않으면 어떠한 문제가 일어나는지 간략하게 살펴봅니다.

이후 weight 초기화를 하는데 있어서 가장 중요한 요소 중 하나인 fan-in과 fan-out의 개념을 이해하고, 이 fan-in과 fan-out을 활용해 weight를 적절한 값으로 초기화할 수 있는 다양한 공식(Xavier Initialization, ReLU Initialization, etc)에 대해서 살펴봅니다. 마지막으로 위 방식과는 전혀 다른 개념으로 weight를 조정하여 딥러닝을 올바르게 학습시킬 수 있는 또 다른 알고리즘인 batch normalization에 대해 배웁니다.

수업 신청 하러가기 >

오늘은 딥러닝 알고리즘을 빠르게 학습할 수 있는 Optimizer에 대해서 배웁니다. 이전까지 우리가 사용했던 알고리즘은 가장 기본적인 Optimizer인 Stochastic Gradient Descent(SGD)라고 볼 수 있습니다. 이번 시간에는 이 알고리즘에 가속도(momentum)라는 개념을 추가하는 방법, 그리고 변수(Feature)마다 학습 속도를 다르게 줌으로서 딥러닝 알고리즘이 다른 방향으로 튀지 않고 빠르게 학습하는 방법 등을 알아봅니다. 그리고 이 개념을 종합한 다양한 Optimizer(Momentum, Nesterov momentum, AdaGrad, RMSProp, Adam)에 대해 배워봅니다.

이후 여러 개의 딥러닝 모델을 섞어 씀으로써 결과적으로 딥러닝 모델의 한 층 끌어올릴 수 있는 Ensemble 방식과 그 원리에 대해 살펴보고, 이 개념을 응용하여 모델을 학습할 때마다 모델의 weight를 강제로 배제함으로써 Ensemble과 유사한 효과를 얻는 Dropout 알고리즘에 대해 배워봅니다.

수업 신청 하러가기 >

마지막 수업에서는 딥러닝을 이용한 이미지 분류(Image Recognition)를 넘어서서, 우리가 찾길 원하는 이미지가 전체 이미지에 어느 부분에 있는지를 찾는 이미지 위치 탐색(Image Detection, Segmentation) 문제, 그리고 기존 데이터를 활용해 이미지를 새롭게 생성하는 이미지 생성(Image Generation) 문제에 대해 간략하게 살펴봅니다.

Image Detection 알고리즘은 우리가 찾고자 하는 이미지가 전체 이미지의 어떤 부분에 있는지를 찾는 일종의 위치 탐색 알고리즘입니다. 우선 딥러닝 이전에 쓰인 이미지 위치 검색 알고리즘과 이 알고리즘에서 발전한 Two-Stage Method(R-CNN, Fast R-CNN, Faster R-CNN, etc)에 대해서 살펴봅니다. 이후 딥러닝 이전에 쓰인 알고리즘을 배제한 체, 철저하게 딥러닝만으로 이미지의 위치를 탐색하는 One-Stage Method(YOLO, SSD, etc)를 살펴보고, One-Stage Method와 Two-Stage Method 방식의 장단점, 어떤 상황에서 어떤 알고리즘을 사용해야 하는지에 대해 배워봅니다.

Image Segmentation은 Image Detection과 유사합니다. 차이점은 Image Detection은 결과를 사각형 박스로 표현하지만, Image Segmentation은 결과를 픽셀 단위로 표현하기 때문에 더 디테일한 위치 표현이 가능합니다. 이번 시간에는 Mask R-CNN을 포함해, 딥러닝으로 구현한 다양한 Image Segmentation 알고리즘에 대해도 살펴봅니다.

마지막으로 Image Generation에서는 이미지 생성 알고리즘의 시초가 되었던 Autoencoder와 Variational Autoencoders, 그리고 2010년도 이후 가장 혁신적인 딥러닝 알고리즘이라 평가받는 GANs(Generative Adversarial Networks)의 개념과 그 원리를 살펴봅니다. 이후 GANs에서 발전한 몇몇 응용 알고리즘(DCGANs, LSGANs, Wasserstein GANs, Pro Gans, Cycle Gans, etc)을 하나하나 살펴보며 그 장단점, 어떠한 상황에서 어떤 알고리즘을 사용해야 하는지 이해합니다.

수업 신청 하러가기 >

온라인 심화반 커리큘럼

뛰어난 데이터 사이언티스트일수록 데이터를 완벽하게 이해할 때 까지 끊임없이 분석합니다. 첫 번째 주에는 예측 모델의 성능을 무리하게 끌어올리려 노력하기 보단, 데이터 분석과 시각화를 통해 데이터를 천천히 이해하려는 과정을 거칩니다. 파이썬의 데이터분석 패키지인 판다스(Pandas)와, 데이터시각화 패키지인 matplotlib, seaborn을 활용하여, 크게 다음의 질문에 대한 답변을 스스로 찾는 과정을 거칩니다.

  • 총 몇 개의 범죄(ex: 절도, 살인)가 있으며, 가장 많이 일어나는 범죄 순으로 정렬하면 어떻게 되는가?
  • 시간(Dates)을 기준으로, 가장 많이 범죄가 일어나는 시기는 언제인가? 그리고 연/월/일/시/분/초 기준으로 범죄와 가장 연관성이 높은 정보는 어떤 것인가? (정 반대로, 가장 연관성이 낮은 정보는 어떤 것인가?)
  • 좌표나 주소상으로, 구체적으로 어떤 위치에서 어떤 범죄가 가장 빈번하게 발생하는가?
  • 주어진 데이터는 신뢰할 수 있는가? 만일 신뢰할 수 없다면, 몇몇 신뢰할 수 없는 데이터는 어떻게 처리해야 하는가? (ex: 버리던가, 고치던가)
수업 신청 하러가기 >

2주차에서는 샌프란시스코 경진대회를 더 깊게 분석합니다. 구체적으로는 다음의 내용을 중점적으로 다룰 것입니다.

  • 정답(Label)을 분석합니다. 다양한 범죄 형태(ex: 절도, 살인 등)가 있는데, 각 범죄마다의 분포는 어떠한지, 발생 빈도의 차이가 있는지 분석합니다.
  • 측정 공식(Evaluation Metric)을 이해합니다. San Francisco Crime Classification 경진대회에서는 log loss라는 측정 공식을 사용하는데, 이 측정 공식의 특징과, 이 공식을 San Francisco Crime Classification에 적용했을 때 발생하는 효과에 대해서 설명합니다.

위 내용을 바탕으로, 우리가 구현할 수 있는 가장 심플한 예측 모델을 구현합니다. 머신러닝 모델은 랜덤 포레스트(Random Forest), 그리고 랜덤 포레스트의 업그레이드 버전인 그래디언트 부스팅 머신(Gradient Boosting Machine)을 사용할 것이며, 가장 강력한 그래디언트 부스팅 머신의 구현체인 LightGBM을 사용할 것입니다.

이번 2주차의 목표는 1주차에 분석한 내용을 바탕으로 머신러닝 모델의 성능을 최대한 끌어올리는 것입니다. 단순히 보유한 데이터를 머신러닝 모델에 적용하는 것을 넘어서서, 보유한 데이터를 빼거나(Feature Selection), 고치거나 추가하는(Feature Extraction) 행위를 통해 머신러닝을 더 정교하게 만드는 과정을 거칩니다.

수업 신청 하러가기 >

3주차에서는 분석과 시각화를 통해 데이터를 더 깊게 들어갑니다. 크게 다음의 내용을 중점적으로 다룰 것입니다.

  • 시간(Dates) 데이터를 시각화한 뒤, 이 데이터를 신뢰할 수 있는지, 신뢰할 수 없다면 이를 고쳐서 머신러닝 알고리즘의 성능을 끌어올릴 수 있는지 분석합니다.
  • 주소(Address) 데이터를 분석해서, 특정 장소에서 많이 발생하는 범죄가 있는지 분석합니다.

위 분석 내용을 바탕으로 예측 모델을 개선합니다. 모델에 도움이 되는 새로운 정보를 추가하거나, 정 반대로 도움이 되지 않는 필요 없는 정보를 제거하고, 사용중인 머신러닝 알고리즘을 튜닝하여 모델의 성능을 한 층 더 끌어올립니다.

이번 3주차의 목표는 San Francisco Crime Classification 경진대회의 상위 25% 안에 들어가는 것입니다. 보통 캐글에서는 데이터 사이언티스트로서 인정을 해줄 수 있느냐의 여부를 상위 25% 안에 진입했는지로 파악합니다. 이 정도 수준까지를 스스로의 힘으로 달성할 수 있는 것이 목표입니다.

수업 신청 하러가기 >

경진대회 데이터에서 사용하기 가장 까다로운 컬럼 중 하나는 주소(Address)입니다. 이번 4주차에서는 주소 값을 분석하여 머신러닝 알고리즘에 집어넣는 방법을 배웁니다.

주소 값을 집어넣을 때의 문제점은, 데이터의 양도 많고(학습 데이터만 총 878,049개), 주소의 종류도 많기 때문에(총 23,228개) 용량이 너무 커서 머신러닝 모델에 집어넣을 수가 없습니다. 이를 극복하기 위해 먼저 다음의 방식으로 주소 데이터를 정리합니다.

  1. 사실상 같은 주소이지만 다른 방식으로 표기되어 있는 값을 찾아 하나로 합칩니다.
  2. 범죄가 자주 발생하지 않는 주소는 제거하거나 하나로 묶어줍니다.

이를 통해 총 23,228 종류의 주소를 1,483 종류까지 줄여줄 수 있습니다. 이후 주소 데이터를 효율적으로 저장하기 위해 희소 행렬(Sparse Matrix)의 저장 방식 중 하나인 Compressed Sparse Row (CSR) 행렬로 변환합니다. 이 방식을 통해 주소 데이터의 메모리 사용량을 획기적으로 줄일 수 있습니다.

마지막으로 주소 데이터를 집어넣은 머신러닝 알고리즘을 다시 한 번 튜닝합니다. 튜닝을 통해 모델의 정확도를 최대한으로 끌어올리며, 최종적으로 San Francisco Crime Classification 경진대회 상위 10% 안에 들 수 있도록 합니다. 보통 캐글 상위 10%에 드는 참석자를 현장에서 즉시전력으로 투입 가능한 인재라고 평가하는데, (참고자료 https://www.kaggle.com/progression) 마지막 주차에서 경진대회 상위 10% 안에 들 수 있다면 충분히 프로페셔널한 데이터 사이언티스트로 활동할 수 있는 인재라고 판단할 수 있습니다.

수업 신청 하러가기 >
Author img

Meet the author!

강성희 대표

  • 미래창조과학부 소프트웨어 마에스트로 멘토 (2013 ~ 현재)
  • 前 네이버 기술투자프로그램 D2 Startup Factory 파트너
  • 연세대학교, 포항공과대학교, DGIST(대구경북과학기술원), 이화여자대학교 특강
  • IBM 데이터 분석 특강
  • Daum 데브온 강연 "구루와의 만남"
  • Technical Consultant : Delight.io(YC10W), Noom, Zoyi
  • XGBoost 등 다양한 오픈소스 라이브러리에 공헌

자주 묻는 질문

네. 그렇습니다. 입문 과정은 전공자가 아니시라는 전제하에 진행합니다. 실제 과거 수강생들의 60%가 코딩을 한번도 해보지 않았다고 응답하신 분들이고, 전원 입문 과정 커리큘럼을 완주하셨습니다. 이렇게 수업을 제공하기 위해 강사님과 조교님들이 수업 진행 내내 옆에서 막힘 없이 수강하실 수 있도록 함께 합니다.
분명 온라인은 오프라인 수업에 비해 교육 효과에 대한 단점들이 존재할 수 있습니다. 이에 대한 고민과 테스트를 DS스쿨 내부에서 열심히 거쳤고, 단점을 보완하고 장점을 극대화할 수 있다 판단되어 런칭하게 되었습니다. DS스쿨 온라인 라이브 수업은 오프라인 수업에 비교해 많은 장점이 있습니다.
  1. 장소를 이동하는데 드는 시간과 비용을 아낄 수 있습니다. 오프라인 수업이 하루 다섯 시간이라고 하더라도, 강의실로 이동하는 데 한 시간이 걸린다면 실제로는 일곱 시간이 걸리는 셈입니다. 하지만 온라인 수업은 장소를 이동하는 시간을 아낄 수 있고, 남는 시간에 예습과 복습을 한다면 오프라인 수업보다 더 큰 성취감을 느낄 수 있습니다.

  2. 화상 회의를 통해 실시간으로 진행되기 때문에, 오프라인 수업의 현장감을 그대로 느낄 수 있습니다. 수업 중에 강사와 커뮤니케이션 할 수 있으며, 중간중간 모르는 부분이 있으면 조교님이 다른 화상 회의 채널로 1대1 코칭을 해줍니다. 또한, 실습은 오프라인 수업과 달리 수강생이 자유롭게 시간을 조율해가며(ex: 전화를 받거나, 잠시 다른 업무를 보거나) 참여할 수 있습니다.

  3. 온라인 수업을 듣다가 급한 사정이 생겼거나, 기타 이유로 인해서 수업을 놓칠 수 있습니다. 혹은 흐름을 따라가지 못해 충분한 학습을 하지 못했다고 생각할 수 있습니다. 이런 경우 언제든지 오프라인 수업으로 변경을 신청할 수 있습니다. (강남역 DS스쿨 강의장) 가까운 일정의 오프라인 수업으로 변경을 신청하면 추가 비용 없이 교차 수강을 지원해드립니다. 또한, 온라인 수업을 만족스럽게 듣지 못했을 경우, 입문반에 한하여 언제라도 오프라인 수업을 무제한으로 재수강 할 수 있습니다.

출장과 주말 출근이 많은 직장인 분들을 배려하는 차원에서 원하시는 다른 기수의 회차 수업으로 교차수강을 지원해드고 있습니다. 빠지게되는 수업 회차만 교차수강을 하셔도 되고, 그 이후 모든 수업을 교차수강으로 이어가셔도 괜찮습니다.
수강생 평균 나이는 30초반입니다. 다만, 20대 중반에서 40대 후반까지 수강생 연령대는 다양하고 문제되지 않습니다.
OS계열은 상관 없습니다. 윈도우, 맥 상관 없이 본인이 편한 장비를 들고 오시면 됩니다.
네 가능합니다. 결제시, 기타 사항에 요청주시거나 support@dsschool.co.kr 으로 신청해주시면 처리해드리겠습니다.
강의 시작전 7일 전까지는 전액 환불이 가능합니다. (환불시 정산일이 지난 카드결제건의 경우 결제 수수료를 제외하고 환불이 될수 있습니다) 그 외에 강의가 시작된 이후에는 환불이 불가합니다. 단, 다른 일정의 기수 참여로 연기하시거나 대리인이 과정에 참여하도록 양도하실 수 있습니다.

한정 이벤트로 입문반 4주 과정을 들으시는 수강생을 대상으로 첫 수업을 참여해보고 마음에 안들면 전액을 환불해드립니다. (*입문반 첫 수업일 기준 5일 내 환불 요청 시)

데이터 전문가. 늦지 않았습니다.

지금 시작하세요!

데이터 사이언티스트를 커리어로써 쌓고 싶으신 분들, '어쩌다 데이터 분석가'라는 직함을 갖게 되신 분들을 위해 준비된 집중 & 맞춤 코스!

지금 등록하기

이번 주에만 수업에 관심을 보여주신 분이
명이었어요!

마감되기 전에 수강신청하세요! 바로 가기>

×