분석 결과

고객님이 제출해주신 설문조사에 기반하여 다음의 커리큘럼을 추천드립니다.

딥러닝 과정

4주 과정, 매주 2회 * 3시간

149만원


입문 과정 이수자 또는 경력자

기본적인 프로그래밍 실력과 수학 능력을 갖췄지만, 인공지능과 딥러닝에 관한 지식이 전혀 없는 분들을 대상으로 합니다. 특히나 딥러닝을 활용한 영상처리에 관심이 많은 분을 위한 커리큘럼으로 구성되어 있습니다.

자세히 보기 Chevron down b

30% 할인 결제하기

중급(판다스) 과정

4주 과정, 매주 1회 * 3시간

99만원


입문 과정 이수자 또는 경력자

현업에서는 업무 시간의 70%를 데이터를 정리하고 다듬는데 투입하는데, 이 때 가장 많이 사용하는 패키지가 바로 판다스입니다. 판다스반에서는 판다스를 활용한 데이터 처리 및 분석, 데이터베이스와의 연동, 대용량 데이터를 병렬처리 하는 노하우 등을 가르칩니다.

40% 할인 결제하기

입문 과정

4주 과정, 매주 5시간

99만원


비전공, 비개발직군 가능

비전공, 비개발직군을 위한 데이터 사이언스 입문 코스. 과거 캐글 데이터 사이언스 경진 대회의 문제와 데이터를 교재 삼아 실습하고 데이터 사이언티스트들의 필수 프로그래밍 툴킷들을 배웁니다.

자세히 보기

현재 잔여 좌석 13개

50% 할인 결제하기

풀타임 교육

과정 준비 중

399만원


전 과정 교육 및 커리어 코스

입문/중급/고급 과정을 8주만에 완주하고, 커리어 코칭 (이력서, 포폴 제작, 기술 인터뷰 준비)을 받아 데이터 사이언티스트로써 경력을 시작하도록 돕는 압축 취업 코스.

*소수반으로 진행되며 평일에 주 10시간 이상 수업이 진행됩니다.

예약 하기
다른 강의들 보러가기 Chevron right b

DS School이 자신있게 권하는 딥러닝 강좌

기본적인 프로그래밍 실력과 수학 능력을 갖췄지만, 인공지능과 딥러닝에 관한 지식이 전혀 없는 분들을 대상으로 합니다. 특히나 딥러닝을 활용한 영상처리(Image processing)에 관심이 많은 분을 위한 커리큘럼으로 구성되어 있습니다.

만일 모두를 위한 딥러닝이나, 타 교육기관에서 진행한 딥러닝 강의(ex: 패스트캠퍼스)가 너무 어렵게 느껴졌다면 이 수업을 다시 듣는 것을 적극적으로 추천합니다. 수업의 취지 자체가 이전에 제가 진행한 교육 과정(소프트웨어 마에스트로)에서 기존의 딥러닝 수업을 어려워하던 연수생에게 딥러닝을 쉽게 설명하고자 개설한 강의이기 때문입니다.

반면 스탠포드의 CS231n이나 CS224n 들은 경험이 있고, 이 수업의 내용을 모두 이해한 분들에게는 이번 수업이 너무 쉽게 느껴질 수 있으므로 수강을 추천하지 않습니다.

프로그래밍과 수학 지식은 공과대학 1~2학년 정도의 기초 지식만 있다면 수업을 따라가는 데 문제가 없습니다.

프로그래밍은 파이썬으로 진행하며, 점프 투 파이썬 수준의 파이썬 지식만 있으면 수업을 충분히 이해하실 수 있습니다. (파이썬을 공부해본 적 없는 분들은, 하루-이틀 정도 시간을 들여 점프 투 파이썬을 실습해 오시는 걸 추천해 드립니다)

수학은 간단한 수학 연산과 기초적인 미분을 이해하고 있다면 충분합니다. 만일 연쇄 법칙(Chain Rule, 고등학교 교과과정에서는 합성함수의 미분이라는 표현을 사용합니다)을 들어본 적이 있다면 수업을 따라오는 데 큰 지장이 없을 겁니다.

다만 수강생마다 수학 실력의 차이가 있기 때문에(내지는 수학을 공부한지 오래되었을 수도 있기 때문에) 수업 자체는 미분을 모른다는 가정하에 차근차근 진행합니다. 그 때문에 미분이나 관련 공식이 기억나지 않는 분들도 수업을 따라올 열정만 노력이 있다면 수강하는 데 문제가 없을 것으로 판단합니다.

DS스쿨 딥러닝 커리큘럼을 1년간 준비하면서 수 많은 유료 강연, 코스들을 경험한 바에 따르면 현재 공개되어있는 딥러닝 수업들은 크게 두 가지 방식으로 나누어집니다.

첫 번째는 대학교에서 진행하는 정규 수업입니다. 스탠포드의 CS231n, 내지는 제프리 힌튼 교수의 딥러닝 수업이 대표적입니다. 위 수업은 딥러닝 알고리즘을 처음부터 끝까지 굉장히 꼼꼼하게 설명하기 때문에 딥러닝의 기초를 탄탄하게 다지기에 매우 좋습니다.

하지만 수업 자체가 잘 하는 몇몇 학생들을 선별하여 높은 학점을 주고 대학원을 보내는 목적으로 개설한 강의이기 때문에, 수업의 난이도가 상당히 높게 구성되어 있습니다. (이는 대부분의 대학교/대학원 수업이 가진 공통적인 단점입니다) 위 수업은 적어도 스탠포드/토론토대 학부생 수준의 기초 지식과 시간적 여유를 갖추고 있지 않다면 수업을 따라가는 것이 불가능합니다.

마찬가지로 국내의 대학원 수업에서 파생된 다른 딥러닝 강의 역시 관련 전공의 대학생이 아니라면 수업을 이해하는 것이 불가능합니다. 제 경험상, 수업을 진행하는 강사가 최근까지 대학원 인공지능 연구실에 소속되어 있었다면 해당 수업은 대부분 일반인이 이해하기 어려운 내용으로 구성된 경우가 많았습니다.

반면 이 수업의 목표는 대학원 수업처럼 소수의 정예를 걸러내는 것이 아닌, 한 명의 낙오자도 없이 모두가 딥러닝을 완벽하게 학습하는 것입니다. 그 때문에 일반인이 이해하기 어려운 내용이 있으면 최대한 쉽게 풀어서 설명하도록 노력했으며, 특히나 이론적인 부분을 직접 코드로 작성하면서 실험해보고, 검증해보고, 이를 통해 이해도를 높이는 과정을 포함하였습니다.

두 번째는 대학교의 정규 수업은 아니지만, 인터넷에 공개되어있는 딥러닝 강좌입니다. 이 강좌들은 굉장히 실용적인 내용으로 구성되어 있으며, 아주 빠른 시간 내에 딥러닝을 배워서 사용하는 것을 목표로 커리큘럼이 만들어져 있습니다.

문제는, 위 수업은 “누군가가 제시한 딥러닝 알고리즘을 어떻게 코드로 구현할 것인가?" 에 치중되어 있기 때문에, 딥러닝의 기초를 쌓을 수 있는 내용이 부족합니다. 제 개인적인 경험상 위와 같은 수업으로 딥러닝을 배운 수강생분들의 경우 실제 딥러닝 관련 업무를 맡기면 전혀 수행하지 못하는 경우가 대부분이었습니다.

만일 본인이 딥러닝의 weight를 어떻게 초기화해야 하는지, loss가 제대로 수렴하지 않는다면 어떤 문제가 있는지, 또한 인터넷에서 다운받은 딥러닝 모델이 잘 동작하지 않는데 그 원인을 찾는 법을 모르겠다면 아마 기초가 탄탄하지 않아서 생기는 문제라고 보시면 됩니다.

제가 많은 학생들과 상담을 해보니, 처음부터 텐서플로우(Tensorflow)로 진행하는 수업 과정에서 특히나 이런 문제가 많이 일어나는것을 발견했습니다. 텐서플로우는 딥러닝의 너무 많은 절차를 내부에 숨겨두기 때문에 딥러닝의 원리를 코드로 파악할 수 없으며, 자연스럽게 이론과 멀어진 채 주어진 패턴에 따라 코드를 구현하는 데에만 집중하게 됩니다.

DS스쿨 딥러닝 반에서는 가능한 동작 원리를 먼저 파악하고, 이를 파이썬으로 하나하나 구현해보면서 문제를 해결하시게 됩니다. (놀라운 사실은, 파이썬으로 작성하는게 텐서플로우로 작성하는 것 보다 코드의 분량이 훨씬 적습니다!) 이게 100 여 명에게 딥러닝을 가르치면서 제가 터득한 효과적인 강습 방법입니다. 텐서플로우나 파이토치(PyTorch), 케라스(Keras)를 사용하는 것은 그 이후에 하시게 됩니다.

수업의 최종 목표는 딥러닝을 활용하여 학교나 회사에서 직접 사용할 수 있는 경지까지 도달하는 것입니다. 수업은 딥러닝을 이용한 이미지 인식(Image Recognition)에 대한 대부분의 내용을 다루며, 이미지 위치 탐색(Image Detection, Segmentation)생성(Image Generation)에 대한 기초 지식과 그 개괄적인 내용도 다루고 있습니다.

이론은 가장 기본적인 딥러닝 알고리즘인 Single layer neural network부터, 딥러닝의 혁신을 주도한 주요 모델(LeNet5, AlexNet, VGGNet, ResNet, etc), 그리고 2017년까지 등장한 최신 딥러닝 알고리즘(WideResNet, ResNeXt, SENet) 까지 전부 다룹니다. 또한 이 내용을 언제든지 실전에서 사용할 수 있도록 해당 모델을 구현하는 법과 그 코드 설명까지 포함되어 있습니다.

실전에서는 구현된 모델을 그대로 사용하면 정상적으로 동작하지 않기 때문에 이를 수정하는 과정을 거쳐야 합니다. 여기서부터 본인의 딥러닝에 대한 이론적 완성도를 시험받게 됩니다. 이론이 탄탄하지 않으면 문제를 파악하는 것도, 파악한 문제를 고치는 법도 알 수 없습니다. 하지만 이번 수업에서는 이런 상황이 발생하지 않도록, 딥러닝의 원리를 하나하나 파악하며 딥러닝을 구현하는 과정을 거칠 것입니다.

제 수업에서 딥러닝 낙오자는 없습니다.

DS School 입문반 강좌 소개

데이터에 대한 호기심과 필요성을 갖고 있지만, 데이터 분석을 해 본 적이 없는 비전공자를 대상으로 합니다.

DS School의 입문반 수업은 수학적 지식이나 통계학적 지식이 전혀 없고, 프로그래밍 언어도 다뤄본 적 없는 초심자를 대상으로 합니다.

조금 더 구체적으로 설명하자면, 다음과 같은 고민을 하는 분들에게 입문반 수업을 추천합니다.

  • 현재 직장에서 갑작스럽게 데이터 관련 업무가 주어져서 혼란스러운 분들.
  • 현재 직장에서 장기적으로 데이터 관련 업무를 병행하면 빠른 승진을 기대할 수 있는 분들.
  • 현재 하는 업무가 장기으로 큰 비전이 없다고 느껴져서, 데이터를 활용하는 유사 업무로 이직하고 싶은 분들.
  • 현재 인공지능과 관련 없는 석사, 박사, 또는 기타 연구소에 재직 중이지만, 본인의 연구에 데이터를 활용해서 더 큰 학문적 성과를 내고 싶은 분들.
  • 현재 취업을 준비하고 있지만, 지금 준비하는 분야가 아닌 데이터를 활용한 다른 분야로 취업하기를 원하는 분들.
  • 당장 데이터 관련 업무를 맡아야 하는 건 아니지만, 데이터라는 분야에 대한 지적 호기심이 있으며 트렌드를 빠르게 쫓아가길 원하는 분들.

위와 같은 고민은 하는 분 중에, 다음과 같은 상황에 부닥친 분들이 DS School 입문반 수업을 들으며 크게 만족하였습니다.

  • 프로그래밍은 물론, 전문적인 수학과 통계학 공부를 해 본 적이 없는 비전공자, 그것도 문과 출신.
  • 프로그래밍과 데이터에 관심이 많아서 공부를 해보았으나, 난이도가 너무 높아서 실패를 겪은 분들.
  • 업무상의 이유로 인해 빠른 기간 안에 데이터 관련 업무를 수행해야 하는 분들.
  • 현재 병행하고 있는 일이 있어서 예습과 복습에 많은 시간을 쓰기 어려운 분들.
  • 데이터 관련 공부를 할 때 본인이 잘 배우고 있는지 가이드를 해주는 사람이 없어서 곤란을 겪었던 분들.

반면 다음과 같은 경험을 가진 분들에게는 입문반 수업을 듣는 것을 추천하지 않습니다.

  • 이전에 데이터 분석을 해 본 분들. 가령 판다스(Pandas)와 싸이킷런(scikit-learn)을 다뤄본 경험이 있으며, 다뤄본 결과 이 정도는 독학으로 충분히 배울 수 있다는 확신이 드는 분들.
  • 독학으로 데이터 공부를 했지만, 큰 어려움 없이 업무에 활용 가능할 만큼의 지식을 습득한 분들. 가령 의사결정나무(Decision Tree)와 같은 인공지능 알고리즘의 동작 원리를 이해하고 싸이킷런(scikit-learn)에서 이 알고리즘을 직접 사용할 수 있는 분들.
  • 데이터사이언스 경진대회 캐글(Kaggle)에 참여했는데, 특정 경진대회에서 상위 25% 이상의 성적을 올린 분들. (단 튜토리얼성 경진대회는 제외)
  • 이전에 학교에서 인공지능 수업을 들어본 경험이 있거나, 인공지능 관련 학과 또는 연구실에 진학, 및 재직한 경험이 있는 분들.

수업에 필요한 선수지식은 없습니다. 수업은 수강생분들이 1) 수학적 지식과 통계학적 지식이 전혀 없으며, 2) 프로그래밍을 한 번도 공부해 본 적 없다는 전제하에 진행합니다.

조금 더 구체적으로 설명하자면, 1) 수학과 통계학은 대한민국 중학생 수준의 지식만 있으면 충분합니다. 평균이나 루트(√), 로그(log) 등을 들어본 적이 있다면 입문반 수업을 따라오는 데 전혀 지장이 없을겁니다. DS School의 입문반 수업은 수강생들이 데이터를 배우는데 수학적 지식과 통계학적 지식이 없다고 전혀 부끄러워할 필요가 없다고 생각합니다.

또한 수업에서는 수강생분들이 2) 프로그래밍 언어(ex: 파이썬)을 전혀 해 본 적이 없다는 전제하에 진행합니다. 입문반 수업에 참여한 수강생의 80%는 입문반에서 프로그래밍을 처음 배웠지만, 모두 데이터 분석을 할 수 있는 충분한 프로그래밍 지식을 습득한 뒤 졸업하였습니다.

다만 예외적으로 프로그래밍을 배운 적이 있거나 현장에서 프로그래머로 일하고 계신 분들을 위한 추가 자료와 과제를 넉넉하게 제공하고 있습니다.

수강생 분들을 대상으로 조사를 해 본 결과, 1) 수강생의 50%는 문과 출신이며, 2) 나머지 30%는 이과 출신이지만 프로그래밍을 한 번도 해본 적이 없는 분들이었습니다. 3) 그리고 나머지 20%가 프로그래밍은 해봤지만, 데이터 분석은 처음인 분들이었습니다.

입문반 수업의 난이도는 1번 분들을 대상으로 맞춰져 있습니다. (수학, 통계학에 자신 없고 프로그래밍을 전혀 해본 적이 없는 문과 출신), 하지만 2번 분들과 3번 분들이 수업을 쉽게 느끼지 않도록 별도의 추가 자료와 과제를 매주 제공하고 있습니다.

또한, 입문반 수업에는 주로 회사나 학업을 병행하면서 데이터 공부를 하길 원하는 분들의 비중이 높았습니다. 그러므로 입문반 수업에서는 본업에 지장이 있을 만큼 과다한 숙제나 자료를 제공하지 않습니다. 대신에 수업 당일날 집중해서 들으면 별도의 예습/복습 시간 없이 따라올 수 있도록 커리큘럼을 구성하였습니다.

물론 이런 분들과는 별개로, 빠른 기간 안에 데이터를 학습하길 원하는 분들을 위한 추가 자료와 과제를 매주 제공하고 있습니다. (단 이 자료를 통해 복습하는 것은 필수 사항은 아닙니다)

가장 큰 차이는 철저한 실전 위주의 수업이라는 것입니다. DS School의 입문반 수업은 장황한 이론 설명을 배제하고 배워서 바로바로 써먹을 수 있는 실전 노하우를 집중적으로 가르칩니다. 그러므로 PPT 위주의 이론 수업보다 훨씬 더 실용적입니다.

수업에서는 캐글(Kaggle)이라는 데이터 사이언스 경진대회에 참가합니다. 캐글은 전세계적으로 공신력 있는 유명 경진대회를 모아놓았는데, 마이크로소프트, 페이스북, 구글 출신을 포함한 해외의 다양한 데이터 사이언티스트들이 참여하고 있습니다. 또한, 인공지능의 대가로 유명한 요슈아 벤지오(Yoshua Bengio, 현 몬트리올대 교수. 딥러닝 붐을 일으킨 주역 중 하나)와 이안 굿펠로우(Ian Goodfellow, GANs의 창시자)도 캐글 경진대회에 참여하거나 포럼에서 토론을 벌이곤 합니다.

DS School의 입문반 수업은 수강생분들과 강사, 조교들이 힘을 합쳐 캐글 경진대회에 도전합니다. 해상사고에서 어떠한 승객이 생존 확률이 높은지 예측하는 경진대회나, 워싱턴 소재의 스타트업에서 요청한 시간당 자전거 대여량을 맞추는 경진대회 등에 참석합니다.

이러한 과정을 통해 실력을 테스트하고, 동시에 실전에서 즉시 사용할 수 있는 노하우를 빠르게 배울 수 있습니다. DS School에서는 체계적인 커리큘럼과 강사, 조교의 적극적인 지원으로 수강생이 빠른 기간 안에 캐글 상위 랭커가 될 수 있도록 도와드립니다.

캐글(Kaggle)에서는 경진대회의 성적으로 데이터 사이언티스트들의 실력을 평가하는데, 보통

  1. 상위 25% 안에 든 참석자를 실력 있는 데이터 사이언티스트라고 평가하며,
  2. 상위 10% 안에 든 참석자를 전문적인 데이터 관련 업무를 할 수 있는 프로페셔널한 데이터 사이언티스트라고 평가합니다. (해당 참석자에게는 캐글에서 공인하는 동메달 마크가 부여됩니다. 이 동메달은 캐글 상위 10%를 상징합니다)
  3. 또한 상위 5%에 드는 참석자를 프로 중에서도 특출나게 뛰어난 데이터 사이언티스트라고 평가합니다. (해당 참석자에게는 캐글에서 공인하는 은메달 마크가 부여됩니다. 이 은메달은 캐글 상위 5%를 상징합니다)

(참고자료)

DS School 입문반의 목표는 다음과 같습니다.

  1. 수강생들이 가능한 스스로의 힘으로 경진대회의 25%, 가능한 상위 10%에 도달하도록 합니다. 이는 혼자 힘으로는 불가능하기에, 매 수업마다 강사와 조교의 적극적인 지원이 있을 것입니다.
  2. 경진대회가 끝나면 강사가 경진대회에서 상위 5%에 도달할 수 있는 노하우를 공유합니다. 이 노하우를 수강생이 잘 이해할 수 있게끔 쉽게 풀어서 설명하며, 수업이 끝나면 노하우를 정리한 자료를 수강생분들에게 공유합니다.

만일 입문반 수업을 통해 1번, 가능하면 2번까지 도달할 수 있다면 현장에서 데이터 업무를 수행할 수 있는 충분한 역량을 갖추었다고 판단할 수 있습니다.

또한 앞서 말씀드린 대로 캐글은 공신력 있는 경진대회입니다. 그 뜻은, 입문반 수업에서 달성한 캐글 성적을 본인의 포트폴리오로 제출할 수 있습니다 . 가령 SK텔레콤이나 쿠키런을 개발한 데브시스터즈의 경우 구인 공고에서 공식적으로 캐글 상위권에 달성한 지원자를 유명 인공지능 학회(NIPS, ICML, ICLR, CVPR, etc)에 논문을 게재한 석사, 박사 연구자와 동급으로 인정해주고 있으며, 네이버, 카카오, 삼성전자 등에서도 암묵적으로 캐글 성적을 인정해주고 있습니다.

만일 데이터 사이언티스트로 취업이나 이직을 원하는 분들은 입문반 수업을 통해 캐글에 적극적으로 참여함으로써, 본인의 실력을 키움과 동시에 포트폴리오를 만드는 두 마리 토끼를 다 잡을 수 있습니다.

결제하기

수강료: 495,000 원 (특별 한정 50% 할인가)


결제 정보

카드 정보는 안전하게 암호화되며,
결제가 끝난 뒤 바로 폐기 처리됩니다.

대부분의 카드사가 5개월 무이자를 지원합니다.

무통장 입금을 원하시는 경우
국민은행 743201-04-130838
입금 부탁드립니다.

결제 문의는 우측 하단의 말풍선 또는 010-2745-5230 로 연락 주세요.

참여 수강생의 후기

요즘 머신러닝에 흥미를 가진 사람들이 많고 관련된 자료는 더 많은 시대가 되었지만 어떻게 시작해야 좋을지 아는 사람은 많지 않습니다. 강성희님과 함께하면서 그저 머신러닝에 흥미만 있었던 저는 차근차근 무엇을 해야 할지 따라갈 수 있었습니다. 실제로 프로젝트를 수행하면서 배운 것은 무엇과도 바꿀 수 없는 값진 경험이었습니다.

- 유상현 (한양대 컴공 졸업) NC소프트 AI랩 입사

대학생 시절부터 인공지능과 머신러닝에 대한 흥미가 있었으나, 이를 가르쳐주고 실전에 적용할 수 있는 방법을 알려주는 곳은 많지 않았습니다. 그러던 중 강성희 강사님의 수업을 통해 다양한 데이터 분석 및 모델링 노하우를 전수받았고, 이 경험과 가치를 인정해준 카카오브레인에 입사할 수 있었습니다. 이번 수업을 통해 여러분들도 이러한 값진 노하우를 전수받는다면 좋겠습니다.

- 이주진 (연세대학교 수학과 학사 휴학) 카카오브레인 입사

머신러닝을 배워서 당장 사용해보고 싶다면? 캐글에 다양한 문제가 있습니다. 캐글을 어떻게 시작하는지 모르겠다면? a to z까지 친절하게 알려주시는 데이터사이언티스트 강성희 강사님과 함께 하세요!

- 정용은 (한양대학교 컴퓨터공학과 학사 졸업) 쿠팡 검색실 입사

기존에는 학생 신분으로써 데이터를 받아 분석 해보기가 쉽지 않았습니다. 그러던 중 강사님의 Kaggle 강의를 통해 기초적인 이용법과 함께 관련 코딩 스킬을 접할 수 있는 기회가 되었고, 그를 시작으로 다양한 데이터를 다뤄 보고 뛰어난 분석가들이 공유하는 스크립트를 찾아보며 데이터 분석의 재미를 느낄 수 있게 되었습니다. 그리고 그 경험을 통해 현재 업무 스킬의 기반이 될 수 있었습니다.

- 최일지 (부경대학교 시스템경영공학과 석사 졸업) 의료 데이터 분석 스타트업, 뷰노VUNO 입사

이 수업을 통해 딥러닝 알고리즘을 이미지 데이터에 적용하는 기초 개념을 잡을 수 있었으며, 요 근래 나오는 최신 논문을 막힘없이 읽을 수 있는 기반 지식을 탄탄하게 갖출 수 있었습니다. 그 덕분에 네이버 이미지 검색팀에 합격할 수 있었고, 현재는 그동안 배운 내용을 활용하여 검색팀에서 딥러닝 검색모델을 구현 및 개발하고 있습니다. 만일 딥러닝에 관심이 많고, 장기적인 관점에서 취업이나 이직을 고려하는 분들에게는 본 강의를 강력하게 추천합니다.

- 김인식 네이버 검색실(Search / Vision 팀) 소프트웨어 엔지니어

딥러닝에 입문할 때 가장 어려운 점은 감당하기 어려운 외계어와 수학, 통계, 프로그래밍 등을 이겨내야 한다는 것 입니다. DS School 딥러닝 강좌의 강점은 기본적인 개념부터 시작하여, 필요한 경우 수학적인 증명을 하고, 이 증명을 파이썬으로 직접 구현하며, 나중에는 이 구현체를 실무에 쓰일 수 있도록 개선하는 모든 과정이 오직 하나의 커리큘럼으로 잘 정리되어 있다는 것입니다. 이 과정은 딥러닝에 입문하는 수강생이 단기간에 명확한 개념을 잡을 수 있는 효과적인 방식입니다. 딥러닝에 입문하고 싶지만 왠지 부담스럽고 막연하게 느껴지시는 분들에게 적극 추천합니다.

김태완 - 오라클 소프트웨어 엔지니어

딥러닝을 적용한 사례들을 접할때 마다 배워보고 싶다는 욕심은 있었지만 어디서부터 시작해야 할지 막막했습니다. 하지만 DS School의 딥러닝 강의를 듣고, 제 손으로 직접 알고리즘을 작성하여 실제 데이터에 적용해보면서 그동안 보고 들었던 딥러닝을 저도 할 수 있게 되었습니다! 글로 배우는 딥러닝이 아니라, 손으로 그리고 머리로 느끼는 딥러닝 강의입니다.

- 백진헌 - 고려대학교 컴퓨터학과 재학 중, Microsoft Student Partner Lead.

이론을 적당히 넘어가고 구현에만 치중하던 다른 수업과는 달리, 경사하강법(Gradient Descent)과 같은 공식을 하나하나 다 증명하면서 알려주는 것이 다른 강의들과의 큰 차이점이었습니다. 특히나 미분을 잘 모르는 학생들을 위해서 기초적인 공식까지 하나하나 집어주셔서 너무 좋았어요! 딥러닝이라는게 되게 복잡하고 어려운 학문이라고 생각했는데, 누구나 알 수 있도록 쉽게 설명해주시고 질문도 친절하게 받아주셔서 너무 좋았습니다. 딥러닝을 처음 스타트하기에 너무 좋은 강의라고 생각합니다!

이다경 - 인하대학교 통계학과 재학 중

Ref 1

송치형 CEO

두나무 주식회사
(업비트, 카카오증권)

강성희 멘토님은 소프트웨어마에스트로 과정에서도 훌륭한 멘토로 소문나 있고, 저희 회사에 소개해 주신 수강생들 모두 뛰어난 개발자입니다. 강성희 멘토님의 수업을 수강하는 것은 실력을 빠른 기간에 높일 수 있는 좋은 기회가 될 것이라 생각합니다. 스타트업에서 개발자들을 보내 교육을 시켜도 좋을 것 같습니다. 개발자분들과 스타트업 임원진 분들께 추천드립니다.

Ref 2

이택경 CEO, MashUp Angels

前 다음 커뮤니케이션 CTO

데이타사이언스의 필요성은 향후 다양한 비즈니스 분야 전반에 걸쳐 더욱 커질것으로 예상되며, 이로인해 데이터 사이언스는 비즈니스의 중요한 한축이 될것입니다. 제가 담당하는 개발자들을 위해 데이터 사이언스 교육과정을 포함시켰고, 강성희 대표의 실습에 기반한 강의는 학생들에게 만족도가 높았습니다. 이후 수강생 중 한명은 매쉬업엔젤스 포트폴리오팀에 입사하기도 하였습니다. 데이터 사이언스에 관심 있는 분들에게 이 강의를 꼭 권하고 싶습니다.

Ref 3

정규환 CTO, VUNO

데이터분석 기술기반의 스타트업에서 CTO로 일하면서 가장 함께하고 싶은 인재는 문제 정의부터 분석 결과 도출하기 까지의 전과정에 필요한 스킬과 경험을 갖추고 있거나 혹은 빠르게 습득하여 합류 즉시 실제 업무에서 함께 일할 수 있는 개발자일 것입니다. 이러한 인재는 스스로의 다양한 현업 경험이나 시행착오로도 성장할 수 있지만, 훌륭한 프로그램의 체계적인 교육을 통해서도 육성될 수 있음을 이미 경험하고 있습니다. 본 강연은 많은 경험을 쌓은 최고의 강사진이 진행하는 만큼, 인공지능/빅데이터 시대에서 가장 중요한 역할을 할 데이터 개발자들이 다수 탄생할 수 있을 것으로 기대합니다.

Ref 4

최시원 CEO, ZOYI

이제 IT 시대가 아니라 DT(Data Technology) 시대 입니다. 쏟아지는 방대한 데이터에서 의미 있는 정보를 추출하는 능력이야 말고 미래의 핵심 가치가 될 것입니다. 많은 스타트업의 그로스 해킹 전략에 데이터의 분석, 인사이트 도출, 실험 및 결과 데이터를 재 분석하는 루프가 활용됩니다. 강성희님이야 말로 이런 새로운 시대를 준비하는 데 적격입니다. 강의를 통해 새로운 시대를 준비하고 능력을 배우게 됨으로써 한 단계 성장하는 기회가 되실 겁니다.

일정 및 커리큘럼 설명

입문반
34기
5/27(일요일) 시작 : 매 주 일요일 오후 4시 ~ 오후 9시 (5시간), 총 4회. (5/27, 6/3, 6/10, 6/17)
입문반
33기
(평일반)
6/1(금요일) 시작 : 매 주 금요일 오후 7시 30분 ~ 오후 11시 30분 (4시간), 총 5회. (6/1, 6/8, 6/15, 6/22, 6/29)
입문반
35기
6/2(토요일) 시작 : 매 주 토요일 오전 10시 ~ 오후 3시 (5시간), 총 4회. (6/2, 6/9, 6/16, 6/23)
입문반
36기
6/9(토요일) 시작 : 매 주 토요일 오후 4시 ~ 오후 9시 (5시간), 총 4회. (6/9, 6/16, 6/23, 6/30)
입문반
38기
6/24(일요일) 시작 : 매 주 일요일 오후 4시 ~ 오후 9시 (5시간), 총 4회. (6/24, 7/1, 7/8, 7/15)
입문반
39기
6/30(토요일) 시작 : 매 주 토요일 오전 10시 ~ 오후 3시 (5시간), 총 4회. (6/30, 7/7, 7/14, 7/21)
입문반
40기
7/7(토요일) 시작 : 매 주 토요일 오후 4시 ~ 오후 9시 (5시간), 총 4회. (7/7, 7/14, 7/21, 7/28)
입문반
41기
7/15(일요일) 시작 : 매 주 일요일 오전 10시 ~ 오후 3시 (5시간), 총 4회. (7/15, 7/22, 7/29, 8/5)
중급반
(판다스)
4기
6/6(수요일) 시작 : 매 주 수요일 오후 8시 ~ 오후 11시 (3시간), 총 4회. (6/6, 6/13, 6/20, 6/27)
딥러닝반
7기
6/5(화요일) 시작 : 매 주 화, 목 오후 8시 ~ 오후 11시 (3시간), 총 8회. (6/5, 6/7, 6/12, 6/14, 6/19, 6/21, 6/26, 6/28)
입문반
32기
5/12(토요일) 시작 : 매 주 토요일 오후 4시 ~ 오후 9시 (5시간), 총 4회. (5/12, 5/19, 5/26, 6/2) (수강신청마감)
중급반
(판다스)
3기
5/2(수요일) 시작 : 매 주 수요일 오후 8시 ~ 오후 11시 (3시간), 총 4회. (5/2, 5/9, 5/16, 5/23) (수강신청마감)
딥러닝반
6기
5/1(화요일) 시작 : 매 주 화, 목 오후 8시 ~ 오후 11시 (3시간), 총 8회. (5/1, 5/3, 5/8, 5/10, 5/15, 5/17, 5/22, 5/24) (수강신청마감)
장소 강남역 강남 토즈타워점
준비물 워크샵에 개인 노트북 지참 (필수)

과정 소개 및 캐글 “Titanic: Machine Learning from Disaster” 편 참여

  • 강의 개요
  • 첫 번째 캐글 경진대회에 참석
  • 엑셀을 활용한 정적 분석
  • 파이썬을 활용한 데이터 분석 및 모델링 시연

첫 수업의 목표는 데이터과학이 수강생분들이 생각하는 것 보다 훨씬 쉽고 재미있는 분야라는 것을 체감하하는 것입니다. 이를 위해 수강생분들은 먼저 액셀을 활용한 정적 분석으로 타이타닉 해상사고의 생존자/사망자를 예측하는 실습을 진행합니다. 실습이 끝나면, 강사의 파이썬 시연을 통해 간단한 프로그래밍으로 데이터를 분석하고 모델링하는 법을 배웁니다.

파이썬 및 데이터 분석 툴킷 실습

  • Python
  • Pandas
  • Scikit-Learn

이번 수업은 데이터 과학자들이 쓰는 도구에 친숙해지고, 수강생분들이 더 빠른 데이터분석과 모델링 방법을 배우는 시간입니다. 학습은 전부 실습으로 진행되며, 실습이 끝나면 수강생들이 직접 파이썬으로 타이타닉 해상사고 모델링을 구현합니다. 이후 강사가 파이썬을 통해 더 정확도 높은 모델링을 하는 방법을 시연합니다.

데이터시각화 학습 및 캐글 "Bike Sharing Demand" 편 참여

  • Seaborn을 활용한 데이터시각화 배우기
  • 경진대회 참여하기
  • 날짜 데이터를 다루는 법을 배우기

날짜와 시간, 온도와 습도 등으로 매 시간 자전거를 대여 댓수를 예측하는 경진대회에 참석합니다. 이번 수업에서는 날짜와 같은 다소 복합적인 값을 다루는 방법을 배우고, 데이터시각화를 통해 데이터에서 새로운 영감을 얻는 방법을 학습합니다.

캐글 "Bike Sharing Demand" 편 참여

  • 날짜가 아닌 다른 값을 활용하여 점수를 올리기
  • 간단한 통계학 노하우를 활용하여 점수를 올리기
  • 하이퍼패러미터 튜닝하기

이번 수업에서는 날짜가 아닌 다른 값을 분석하여 예측 모델의 성능을 높입니다. 간단한 통계학 노하우를 통해 모델의 성능을 개선하곡, 하이퍼패리미터(Hyperparameter) 튜닝을 통해 예측 모델을 조금 더 정교하게 다듬는 방법을 배웁니다. 실습이 끝나면 강사가 라이브 코딩으로 경진대회 상위 10%에 진입할 수 있는 노하우를 공유합니다.

과정 소개 및 캐글(Kaggle) “Titanic: Machine Learning from Disaster” 경진대회 참여

  • 강의 개요. 자기소개.
  • 첫 번째 캐글 경진대회에 참석
  • 엑셀(내지는 구글 스프레드시트)를 활용한 기초적인 통계분석 해보기.
  • 강사의 파이썬을 활용한 데이터 분석 및 인공지능&머신러닝 알고리즘 활용 시연

DS School 데이터 사이언스 입문반의 대주제는 “데이터는 생각보다 어렵지 않으며, 누구든지 쉽게 데이터를 다룰 수 있다.”라는 것을 깨닫는 것입니다. 1주차 수업에서는 엑셀을 활용하여 데이터를 분석하는데, 간단한 엑셀 공식과 피벗 테이블(Pivot Table)만으로 데이터를 분석하는 방법을 체험합니다.

이번 수업에서는 데이터 사이언티스트의 온라인 경진대회 캐글(Kaggle)에 도전합니다. 첫 번째 경진대회는 RMS 타이타닉 해상사고의 데이터를 바탕으로, 유사한 해상사고가 발생했을 경우 어떤 승객이 생존하며, 또한 어떤 승객이 사망하는지를 예측하는 경진대회입니다.

매우 어려워 보이지만, 실습에 들어가면 데이터를 분석하는 일이 굉장히 쉽고 재미있다는 것을 알 수 있습니다. 수강생분들은 먼저 엑셀에서 사칙연산을 하는 방법과 제어문(IF)과 같은 간단한 엑셀 공식, 그리고 피벗 테이블(Pivot Table)을 활용하여 데이터를 분석하는 법을 배웁니다. 이후 전통적인 데이터 분석 방법인 1) 가설 수립, 2) 가설 검증, 3) 검증된 가설로 예측. 하는 세 가지 방식을 통해 생존자와 사망자를 예측합니다.

가령 1) "여성인 경우 해상사고에서 탈출 우선순위가 높기 때문에 생존율이 높다.”는 가설을 세웠으면 (가설 수립) 2) 엑셀의 피벗 테이블(Pivot Table)로 여성일 경우의 생존율과 남성일 경우의 생존율을 비교합니다. (가설 검증), 3) 가설 검증이 완료되었으면 제어문(IF)을 활용해 a) 승객이 남성일 경우 사망했다고 예측하고, b) 여성일 경우 생존했다고 예측합니다. (검증된 가설로 예측)

이 예측 결과를 캐글(Kaggle)에 제출하면, 몇 명의 승객을 맞췄는지에 대한 정답률을 알려줍니다.

이후 수강생분들끼리 팀을 짜서 자율 실습에 들어갑니다. 실습 목표는 경진대회의 상위 25% (예측 정확도 약 78.947%)에 도달하는 것입니다. 만일 첫 수업에서 상위 25%에 도달할 수 있다면 데이터 사이언티스트로서의 소질이 있다고 판단할 수 있습니다. 실습이 끝나면 가장 점수가 높은 수강생을 뽑아서 개인 인터뷰와 선물 증정식을 합니다.

자율 실습이 끝나면, 마지막으로 강사가 프로그래밍 시연을 합니다. 프로그램 언어 파이썬(python.org), 데이터 분석 패키지 판다스(Pandas), 데이터 시각화 패키지 시본(Seaborn), 마지막으로 인공지능&머신러닝 알고리즘 중 하나인 의사결정나무(Decision Tree)를 활용해 데이터를 분석하고 그 결과를 캐글에 제출합니다. 목표는 마찬가지로 경진대회 상위 25%에 해당하는 78.947%의 예측 정확도를 달성하는 것입니다.

프로그래밍 언어 파이썬(Python)과 관련 데이터 분석 패키지를 학습하기. 학습이 끝난 후 Titanic: Machine Learning from Disaster 경진대회에 재도전.

2주차 수업에서는 본격적으로 데이터 분석을 배우며, 크게 다음의 툴을 학습합니다.

  1. 프로그래밍 언어 파이썬(Python)
  2. 파이썬의 데이터 분석 패키지 판다스(Pandas)
  3. 파이썬의 인공지능&머신러닝 패키지 싸이킷런(scikit-learn)
  4. 머신러닝 알고리즘 의사결정나무(Decision Tree)

위 네 개의 툴을 사용하는 법을 배웠다면, 마지막으로 1 ~ 4번을 조합하여 타이타닉 경진대회에 재도전합니다. 이번에는 엑셀이 아닌 파이썬을 활용하여 상위 25% (예측 정확도 78.947%)에 도전하며, 실습이 끝난 뒤에는 강사가 경진대회 상위 5% (예측 정확도 81.818%)에 도달할 수 있는 노하우를 공유합니다.

2주차에 학습할 툴에 대한 상세 설명은 다음과 같습니다.

파이썬

파이썬(Python)은 데이터 분석과 인공지능 분야에서 가장 많이 쓰이는 프로그래밍 언어입니다. 파이썬은 고레벨 프로그래밍 언어(High-Level Programming Language)답게 매우 직관적이면서 사람이 이해하기 쉬우며, 숙련자는 물론 프로그래밍 언어를 처음 접해보는 사람도 단기간에 배울 수 있습니다.

이번 수업에서는 파이썬의 다음 기능을 배울 것입니다.

  • 파이썬의 기본 연산. 덧셈, 뺄셈, 곱셈, 나눗셈, 나머지 연산자 등.
  • 파이썬의 비교 연산. 등호(==)와 부등호(!=), 이상, 이하, 미만, 초과 등.
  • 파이썬의 변수. 변수를 할당하는 법과 사용하는 법 등.
  • 파이썬의 다양한 데이터 타입. 숫자, 문자열(텍스트), 리스트(배열) 등.
  • 파이썬의 제어문과 반복문. if-else와 for 등.
  • 파이썬의 함수와 그 응용 등.

판다스

판다스(Pandas)는 파이썬에서 자주 쓰이는 데이터 분석 패키지입니다. 판다스에서는 엑셀에서 사용하는 기능을 그대로 쓸 수 있는데, 엑셀에 비해서 1) 대용량 데이터를 다루는 데 적합하며 (엑셀은 데이터의 용량이 100메가만 넘어가면 느려집니다), 2) 엑셀보다 훨씬 복잡한 기능을 코드 몇 줄로 구현할 수 있습니다. 3) 또한 파이썬을 기반으로 동작하기 때문에 데이터 분석 결과를 다양한 분야에 응용할 수 있습니다. (ex: 데이터베이스에 저장하기, 웹페이지에 띄우기, 머신러닝 알고리즘에 집어넣기 등)

이번 수업에서는 판다스의 다음 기능을 배울 것입니다.

  • 판다스로 분석할 데이터를 읽어오고 저장하기.
  • 판다스로 데이터의 행렬(row/column) 검색하기.
  • 판다스로 데이터를 색인(indexing) 하기.
  • 판다스로 데이터를 통계분석 하기. (pivot_table, crosstab, etc)
  • 판다스로 데이터에 새로운 컬럼을 추가하거나 기존 컬럼값을 수정하기.
  • 판다스로 복잡한 기능을 구현하기. (apply)

싸이킷런 + 의사결정나무

싸이킷런(scikit-learn)은 파이썬에서 인공지능&머신러닝에 관련된 알고리즘을 하나로 묶어놓은 패키지입니다. 싸이킷런을 활용하면 알고리즘을 직접 구현할 필요 없이, 이미 만들어진 구현체를 파이썬으로 가져와 사용하면 됩니다.

이번 수업에서는 싸이킷런의 대표적인 머신러닝 알고리즘인 의사결정나무(Decision Tree)를 활용할 것이며, 크게 다음 기능을 배울 것입니다.

  • 싸이킷런에서 머신러닝 알고리즘을 가져오기.
  • 가져온 알고리즘에 데이터를 넣어 학습(fitting) 시키기.
  • 학습이 끝난 데이터로 특정 상황을 예측(predict) 하기.
  • 의사결정나무(Decision Tree)의 분석 결과를 시각화해서 보기.

캐글의 새로운 경진대회 Bike Sharing Demand 참여하기.

  • 타이타닉 경진대회에 이은 Bike Sharing Demand 경진대회 에 참석.
  • 데이터 분석을 통해서 인사이트를 얻을 수 있는 탐험적 데이터 분석(Exploratory Data Analysis) 배우기.
  • 팀을 짠 뒤 경진대회 실습. Bike Sharing Demand 상위 25%에 도전해보기.
  • 실습이 끝난 뒤 강사의 시연으로 Bike Sharing Demand 상위 10% 후반에 진입하는 노하우를 배우기.

이번 시간에는 2주차에서 학습한 내용을 바탕으로 새로운 경진대회에 참가합니다. Capital Bikeshare 라는 워싱턴 D.C. 소재의 자전거 대여 스타트업에서 제공한 데이터를 바탕으로, 2011년도와 2012년도의 시간당 자전거 대여량을 예측하는 경진대회에 참석합니다.

기존에 참여한 타이타닉 경진대회와 전혀 달라 보이지만, 우리가 이전까지 배운 지식을 이번 경진대회에서도 그대로 활용할 수 있습니다. 여기에 더불어, 3주차에서는 데이터를 분석하여 그 결과를 머신러닝 알고리즘에 적용하는 탐험적 데이터 분석(Exploratory Data Analysis, 이하 EDA)에 대해서 배웁니다. 정확하게는 다음의 데이터 분석 노하우를 배울 것입니다.

  • 기존에 보유하고 있는 데이터에서 새로운 정보를 추출하는 Feature Engineering.
  • 기존에 보유하고 있는 데이터에서 필요 없는 정보를 제거하는 Feature Selection.
  • 비어있는 값을 제거하거나, 전체 분포와 동떨어져 있는 아웃라이어(outlier)를 제거하는 Data Cleaning.
  • 캐글(Kaggle)에 제출하지 않고도 현재 구현한 예측 모델의 정확도를 측정할 방법. (Cross Validation)

또한 3주차에는 의사결정나무(Decision Tree)의 업그레이드 버전인 랜덤 포레스트(Random Forest)를 학습합니다. 이 알고리즘은 대부분 의사결정나무보다 더 좋은 성능을 보장하는 강력한 알고리즘입니다. 이 알고리즘의 원리와 사용 방법을 배우면 더 정확한 예측 모델을 구현할 수 있습니다.

이번 실습의 최종 목표는 Bike Sharing Demand 경진대회의 상위 25% 안에 드는 것입니다. 2주차에서 배운 내용과 3주차에서 새롭게 배운 내용을 조합하면 어렵지 않게 상위 25%에 도달할 수 있습니다. 실습이 끝나면 마지막으로 강사의 시연을 통해 Bike Sharing Demand 경진대회의 상위 25%, 더 나아가서 10% 후반대에 도달할 수 있는 노하우를 공유합니다.

데이터 시각화(Data Visualization)를 배운 뒤, 다시 한번 Bike Sharing Demand 경진대회에 참석하기.

  • matplotlibSeaborn을 활용한 데이터 시각화 실습하기.
  • Bike Sharing Demand 경진대회에 재도전, 상위 10%에 도전해보기.
  • 실습이 끝난 뒤 강사의 시연으로 Bike Sharing Demand 상위 5%에 진입하는 노하우를 배우기.

이번 시간에는 새로운 데이터 분석 방식인 데이터 시각화(Data Visualization)를 배웁니다. 데이터 시각화 패키지는 파이썬에서 가장 많이 사용하는 matplotlibSeaborn을 사용하며, 히스토그램(histogram)이나 bar plot, scatter plot 등의 시각화 방법과 그 결과를 해석하는 방법을 배웁니다.

데이터 시각화를 배웠으면 3주차에 이어 다시 한번 Bike Sharing Demand 에 도전합니다. 이번 실습에는 판다스(Pandas)를 활용한 데이터 분석 노하우와 matplotlib, Seaborn을 활용한 데이터 시각화 노하우를 병행합니다. 또한 이외에도 다음의 내용을 추가로 배울 것입니다.

  • 예측 모델이 잘 만들어졌는지를 정량적으로 판단할 수 있는 측정 공식. (Evaluation Metrics)
  • 머신러닝 알고리즘(ex: 랜덤 포레스트)을 튜닝하여 성능을 끌어올릴 수 있는 하이퍼패러미터 튜닝. (Hyperparameter Tuning)
  • 측정 공식(Evaluation Metrics)을 분석하여 이에 맞게 데이터를 수정하거나 머신러닝 모델을 개선하는 노하우.

마지막으로 4주차에는 랜덤 포레스트(Random Forest)를 넘어서서, 가장 강력한 머신러닝 알고리즘인 그래디언트 부스팅 트리(Gradient Boosting Tree)를 배웁니다. 이 알고리즘은 1) 구조화된 데이터(Structured Data)에 한하여 언제나 최고의 성능을 보장하며, 2) 현장에서도 자주 쓰이는 매우 실용적인 알고리즘입니다. 이번 수업에서는 가장 뛰어난 그래디언트 부스팅 트리의 구현체인 XGBoostLightGBM을 사용합니다.

이번 실습의 최종 목표는 Bike Sharing Demand 경진대회의 상위 10% 안에 드는 것입니다. 일반적으로 캐글 경진대회에서 상위 10% 안에 진입한 사람은 프로페셔널한 데이터 사이언티스트로 간주합니다. (해당 참석자에게는 캐글에서 공인하는 동메달 마크가 부여됩니다) 만일 4주차 수업에서 스스로의 힘으로 상위 10%에 도달할 수 있다면, 데이터 사이언티스트로서 충분한 재능을 보유하고 있다고 판단할 수 있습니다.

실습이 끝나면 마지막으로 강사가 간단한 시연을 통해 Bike Sharing Demand 경진대회의 상위 5% 이내에 진입할 수 있는 노하우를 공유합니다. 캐글에서는 상위 5%에 진입한 사람을 프로 중에서도 특출나게 뛰어난 데이터 사이언티스트로 간주합니다. (해당 참석자에게는 캐글에서 공인하는 은메달 마크가 부여됩니다) 입문반 수업을 통해 경진대회 상위 5%의 노하우를 습득할 수 있다면, 데이터 사이언티스트 되는 데 필요한 지식은 거의 습득했다고 가정해도 무방합니다.

마지막으로 수업이 끝난 뒤, 수강생분들이 앞으로 스스로 공부를 하는 데 도움이 될 자료를 공유합니다. 파이썬, 판다스, 인공지능&머신러닝을 추가로 공부하는 데 도움이 될 서적과 인터넷 자료를 소개하고, 다른 경진대회에 도전하고 싶은 분들을 위해 추천할만한 주요 캐글 경진대회를 소개합니다. 또한, 해당 경진대회 상위권에 도달할 수 있는 다양한 팁을 공유한 뒤 수업을 마무리합니다.

수업을 시작하기 전에, 먼저 판다스(Pandas)라고 하는 데이터 분석 툴에 친해질 필요가 있습니다. 이를 위해 강사가 판다스를 통해 구체적으로 어떻게 데이터를 다루고 정리할 수 있는지 시연하는 시간을 가질 예정입니다.

시연이 끝나면 판다스의 기본에 대해 직접 배웁니다. 판다스의 기본 구조인 Series와 DataFrame부터, 판다스에서 행렬을 접근하는 다양한 방법(loc, at, ix, etc), 데이터를 색인하고 검색하는 노하우 등에 대해 배웁니다. 학습이 끝나면 지금까지 배운 내용을 활용하여, 실제 현업에서 쓰일 법한 데이터를 받아와 수강생이 직접 데이터를 정리하는(Data Cleaning) 실습을 해보고 곁에서 강사가 조언을 해줍니다.

저번 시간에서 데이터를 다루는 법을 배웠다면, 이번 시간에서는 데이터를 판다스에서 읽어오고 저장하는 다양한 방식, 그리고 그 장단점에 대해 배웁니다.

먼저 판다스를 CSV, Excel 파일에서 불러오는 방법과, MySQL과 같은 데이터베이스에서 판다스로 직접 가져오는 노하우 등에 대해서 배웁니다. 보통 MySQL 등에서는 데이터가 여러 종류의 테이블(table)로 나뉘어져 있는데, 이를 merge, join, concat 등을 활용해 하나로 합치는 방법에 대해 배웁니다. 그리고 판다스로 정리한 데이터를 저장하는 다양한 방법(CSV, pickle, joblib)과 그 장단점에 대해 배웁니다. 마지막으로 지금까지 배운 내용을 활용하여, 실제 회사에서 일을 하는 것 처럼 수강생이 스스로 MySQL 데이터베이스에서 데이터를 직접 읽어와 정리한 후 이를 파일로 저장하는 실습을 해봅니다.

이번 시간에는 판다스의 기초를 넘어, 실전에서 판다스를 다룰 때 알아두면 좋은 다양한 팁에 대해서 배웁니다.

실전에서 데이터를 다룰 때 가장 많이 겪는 부분이자 어려운 부분은 텍스트 데이터를 다루는 것입니다. 이번 시간에는 텍스트 데이터를 판다스로 다루는 방법에 대해서 배웁니다. 또한 MySQL과 같은 테이블 데이터 외에도, JSON과 같은 계층적(hierarchical) 데이터를 판다스로 읽어오는 방법, 그 사이에 발생하는 여러 문제와 그 해결법을 다룹니다. 학습이 끝나면 3주차까지 배운 내용을 바탕으로, 현장에서 다룰만한 텍스트 데이터 등을 받아와 수강생이 스스로 정보를 뽑아내고 분석하는 실습을 해봅니다.

마지막 시간의 목표는 수강생이 현업 회사의 데이터팀에 즉시전력으로 투입 가능한지를 검토하는 것입니다.

먼저 판다스에서 대량의 데이터를 병렬로 처리하는 노하우, 대용량 데이터를 처리하면서 현재 진행상황을 실시간으로 파악할 수 있는 방법, 동일한 데이터를 처리할 때 어떻게 하면 느려지고 어떻게 하면 빨리지는지 등에 대해서 중점적으로 살펴볼 것입니다. 이 내용을 배웠다면, 마지막으로 지금까지 판다스반에서 배운 내용을 총동원하여, 실제 현업에서 다루는 데이터와 기술을 활용해 현장에 즉시전력으로 투입될 수 있는지 실습을 통해 최종 점검하는 시간을 가질 것입니다.

첫 수업에서는 딥러닝이 정확하게 어떤 알고리즘이며, 왜 현재의 인공지능 붐을 주도하게 되었는지 설명합니다.

강의에 대한 소개가 끝나면, 먼저 가장 기본적인 딥러닝 알고리즘인 Single-layer neural network 알고리즘을 배우고 이를 직접 구현해봅니다. 가장 단순한 구현 방식(ex: Random Search)부터 시작해, 가장 효과적이며 모든 딥러닝 알고리즘의 기본이 되는 Gradient Descent 알고리즘까지 직접 구현합니다.

Single-layer neural network의 원리와 구현 방법을 배웠으면, 보스턴의 부동산 관련 정보를 데이터로 정리한 Boston housing dataset 을 활용해 부동산의 집값을 예측하는 알고리즘을 Single-layer neural network로 구현합니다.

1회차에서는 Single-layer neural network를 활용해 Regression problem (우리가 예측하려는 값이 정수형이고, 그 높고 낮음을 예측하는 문제. 부동산이나 주식의 집값 예측 등)을 풀어보았습니다. 이번 회차에는 1회차에서 배운 내용을 응용하여, 예측하려는 값이 어느 분류에 속하는지를 판단하는 Classification problem (상품 카테고리 분류, 폐암의 양성/음성 여부 등)을 해결하는 Single-layer neural network를 구현합니다.

이후 우편번호의 필기체 이미지를 정리한 MNIST 데이터셋을 활용하여, 이미지에 아무런 사전 처리(preprocessing)를 거치지 않은 채 픽셀과 RGB 값만 넣으면 그 안에 그려져 있는 숫자를 스스로 인식하는 숫자 인식 알고리즘을 Single-layer neural network로 구현합니다.

Single-layer neural network는 굉장히 강력한 알고리즘이지만, 몇 가지 문제점을 가지고 있습니다. 이번 시간에서는 Single-layer neural network가 가지고 있는 가장 큰 문제점 중 하나인 XOR problem에 대해서 살펴보고, 이를 해결할 수 있는 다양한 방법, 그리고 이 방법을 활용해 Single-layer neural network에 Hidden Layer이라는 개념을 도입함으로써 알고리즘의 성능을 크게 개선한 Multi-layer neural network에 대해서 배웁니다.

이후 Multi-layer neural network를 활용하여 Single-layer neural network보다 더 강력한 이미지 인식 알고리즘을 구현해보고, 이 알고리즘을 2회 차에서 사용한 MNIST 데이터셋에 적용한 뒤 그 결과를 기존 방식과 비교합니다.

이번 시간부터는 딥러닝을 이미지에 적용하는 방법을 본격적으로 배웁니다. Multi-layer neural network를 이미지에 적용할 때 생기는 여러 가지 문제점(과다한 메모리 사용, 비효율적인 연산 등)을 살펴보고, 이 문제점을 Convolutional Layer와 Pooling Layer라는 개념을 도입하여 해결한 Convolutional neural network(이하 CNN)에 대해 배웁니다. 이후 CNN을 활용하여 MNIST 데이터셋에 적용한 뒤, 이 결과를 Multi-layer neural network와 비교합니다.

CNN을 배웠으면, 마지막으로 딥러닝을 활용한 이미지 분류의 발전사를 간략하게 살펴봅니다. CNN이라는 개념이 처음 공개되었던 1998년부터 지금까지 CNN이 어떻게 발전했는지 살펴보고, 이 과정을 통해 우리는 앞으로 무엇을 더 배워야 할지 정리합니다. CNN을 활용한 이미지 분류(Image Recognition)의 가장 기본이 되는 LeNet5(1998)부터, 딥러닝 혁명을 이끈 초기 모델인 AlexNet(2012), 이어지는 GoogLeNet(2014)과 VGGNet(2014), ResNet(2015)을 살펴보고, 마지막으로 ResNet을 더 개선한 WideResNet(2016), ResNeXt(2016), SENet(2017) 등에 대해서도 살펴봅니다.

오늘부터는 4회차에서 프리뷰한 내용을 바탕으로 CNN을 개선할 수 있는 구체적인 팁과 노하우를 하나하나 배웁니다.

먼저 우리가 지금까지 사용했던 sigmoid라는 Activation Function의 단점을 알아봅니다. sigmoid 함수의 양 끝에 도달하면 기울기(gradient)가 죽어버리는 현상, 그리고 Gradient Descent 알고리즘을 돌리면 우리가 업데이트해야 하는 weight가 지그재그로 업데이트되는 현상 등을 살펴봅니다. 이후 이 단점을 해결한 다른 대안들(tanh, ReLU, LReLU, PReLu, Leacky ReLU, ELU, Maxout, SReLU)과 그 구체적인 효과에 대해서도 배워봅니다.

이번 회차는 weight를 어떻게 초기화해야 하는지에 대해서 알아봅니다. weight는 우리가 딥러닝 알고리즘을 통해 실질적으로 구해야 하는 값이라고 볼 수 있는데, 이 weight를 올바르게 초기화한 뒤 업데이트를 시작하지 않으면 어떠한 문제가 일어나는지 간략하게 살펴봅니다.

이후 weight 초기화를 하는데 있어서 가장 중요한 요소 중 하나인 fan-in과 fan-out의 개념을 이해하고, 이 fan-in과 fan-out을 활용해 weight를 적절한 값으로 초기화할 수 있는 다양한 공식(Xavier Initialization, ReLU Initialization, etc)에 대해서 살펴봅니다. 마지막으로 위 방식과는 전혀 다른 개념으로 weight를 조정하여 딥러닝을 올바르게 학습시킬 수 있는 또 다른 알고리즘인 batch normalization에 대해 배웁니다.

오늘은 딥러닝 알고리즘을 빠르게 학습할 수 있는 Optimizer에 대해서 배웁니다. 이전까지 우리가 사용했던 알고리즘은 가장 기본적인 Optimizer인 Stochastic Gradient Descent(SGD)라고 볼 수 있습니다. 이번 시간에는 이 알고리즘에 가속도(momentum)라는 개념을 추가하는 방법, 그리고 변수(Feature)마다 학습 속도를 다르게 줌으로서 딥러닝 알고리즘이 다른 방향으로 튀지 않고 빠르게 학습하는 방법 등을 알아봅니다. 그리고 이 개념을 종합한 다양한 Optimizer(Momentum, Nesterov momentum, AdaGrad, RMSProp, Adam)에 대해 배워봅니다.

이후 여러 개의 딥러닝 모델을 섞어 씀으로써 결과적으로 딥러닝 모델의 한 층 끌어올릴 수 있는 Ensemble 방식과 그 원리에 대해 살펴보고, 이 개념을 응용하여 모델을 학습할 때마다 모델의 weight를 강제로 배제함으로써 Ensemble과 유사한 효과를 얻는 Dropout 알고리즘에 대해 배워봅니다.

마지막 수업에서는 딥러닝을 이용한 이미지 분류(Image Recognition)를 넘어서서, 우리가 찾길 원하는 이미지가 전체 이미지에 어느 부분에 있는지를 찾는 이미지 위치 탐색(Image Detection, Segmentation) 문제, 그리고 기존 데이터를 활용해 이미지를 새롭게 생성하는 이미지 생성(Image Generation) 문제에 대해 간략하게 살펴봅니다.

Image Detection 알고리즘은 우리가 찾고자 하는 이미지가 전체 이미지의 어떤 부분에 있는지를 찾는 일종의 위치 탐색 알고리즘입니다. 우선 딥러닝 이전에 쓰인 이미지 위치 검색 알고리즘과 이 알고리즘에서 발전한 Two-Stage Method(R-CNN, Fast R-CNN, Faster R-CNN, etc)에 대해서 살펴봅니다. 이후 딥러닝 이전에 쓰인 알고리즘을 배제한 체, 철저하게 딥러닝만으로 이미지의 위치를 탐색하는 One-Stage Method(YOLO, SSD, etc)를 살펴보고, One-Stage Method와 Two-Stage Method 방식의 장단점, 어떤 상황에서 어떤 알고리즘을 사용해야 하는지에 대해 배워봅니다.

Image Segmentation은 Image Detection과 유사합니다. 차이점은 Image Detection은 결과를 사각형 박스로 표현하지만, Image Segmentation은 결과를 픽셀 단위로 표현하기 때문에 더 디테일한 위치 표현이 가능합니다. 이번 시간에는 Mask R-CNN을 포함해, 딥러닝으로 구현한 다양한 Image Segmentation 알고리즘에 대해도 살펴봅니다.

마지막으로 Image Generation에서는 이미지 생성 알고리즘의 시초가 되었던 Autoencoder와 Variational Autoencoders, 그리고 2010년도 이후 가장 혁신적인 딥러닝 알고리즘이라 평가받는 GANs(Generative Adversarial Networks)의 개념과 그 원리를 살펴봅니다. 이후 GANs에서 발전한 몇몇 응용 알고리즘(DCGANs, LSGANs, Wasserstein GANs, Pro Gans, Cycle Gans, etc)을 하나하나 살펴보며 그 장단점, 어떠한 상황에서 어떤 알고리즘을 사용해야 하는지 이해합니다.

Author img

Meet the author!

강성희 대표

  • 미래창조과학부 소프트웨어 마에스트로 멘토 (2013 ~ 현재)
  • 前 네이버 기술투자프로그램 D2 Startup Factory 파트너
  • 연세대학교, 포항공과대학교, DGIST(대구경북과학기술원), 이화여자대학교 특강
  • IBM 데이터 분석 특강
  • Daum 데브온 강연 "구루와의 만남"
  • Technical Consultant : Delight.io(YC10W), Noom, Zoyi
  • XGBoost 등 다양한 오픈소스 라이브러리에 공헌

자주 묻는 질문

네. 그렇습니다. 입문 과정은 전공자가 아니시라는 전제하에 진행합니다. 실제 과거 수강생들의 60%가 코딩을 한번도 해보지 않았다고 응답하신 분들이고, 전원 입문 과정 커리큘럼을 완주하셨습니다.
수강생 평균 나이는 30초반입니다. 다만, 20대 중반에서 40대 후반까지 수강생 연령대는 다양하고 문제되지 않습니다.
OS계열은 상관 없습니다. 윈도우, 맥 상관 없이 본인이 편한 장비를 들고 오시면 됩니다.
네 가능합니다. 결제시, 기타 사항에 요청주시거나 support@dsschool.co.kr 으로 신청해주시면 처리해드리겠습니다.
강의 시작전 7일 전까지는 전액 환불이 가능합니다. (환불시 정산일이 지난 카드결제건의 경우 결제 수수료를 제외하고 환불이 될수 있습니다) 그 외에 강의가 시작된 이후에는 환불이 불가합니다. 단, 다른 일정의 기수 참여로 연기하시거나 대리인이 과정에 참여하도록 양도하실 수 있습니다.

데이터 전문가. 늦지 않았습니다,

지금 시작하세요!

데이터 사이언티스트를 커리어로써 쌓고 싶으신 분들, '어쩌다 데이터 분석가'라는 직함을 갖게 되신 분들을 위해 준비된 집중 & 맞춤 코스!

지금 등록하기