빅데이터 분석을 위한 스파크 2 프로그래밍 [개정판] (백성민 / 위키북스)
스터디 목표 종료일 - 2019년 11월 1일
- 책 60page 읽어오기
- 책 단원에 따라 유동적으로 변경 가능
- 다음주 공부 분량은 그 전주 스터디 날 결정
- 아래 두개 중 택1 하여 스터디 Organization Repo에 commit (스터디 당일 아침 10시까지)
- 책 내용 정리하기 - 발표자인 경우 책 내용 정리 필수❗️
- 책 내용 관련 질문 3개
- 폴더 - 01장, 02장, 03장, 04장, 05장, 06장, 07장, 08장, 09장 ・・・
- 한글로 폴더명 생성
- 하위 폴더(예: 8.2)는 생성하지 않음
- 파일명 - 대단원숫자_대단원제목_이름.md
- 대단원제목은 책의 00장 옆에 있는 한글 제목 (제목에 스페이스가 있으면 _로 변경)
- 예: 01_스파크_소개_김이름.md, 02_RDD_김이름.md, 03_클러스터_환경_김이름.md, 04_스파크_설정_김이름.md ・・・
- 파일명은 중단원, 소단원 제목으로 생성하지 않음
- 이름은 한글로 작성(3글자)
- 대단원제목은 책의 00장 옆에 있는 한글 제목 (제목에 스페이스가 있으면 _로 변경)
두 명이 각각 약 30page 분량을 한 시간씩 진행 (내용 설명 + 함께 코딩)
- 1회차 - 190717(수)
이성준
1.1 스파크, 2.1.1 들어가기에 앞서 ~ 2.1.4 RDD 기본 액션고준희
2.1.5 트랜스포메이션 ~ 2.1.8 클러스터 환경에서의 공유 변수
- 2회차 - 190725(목)
김건영
3.1 클러스터 환경김슬아
3.2 클러스터 매니저
- 중간회의 - 190905(목)
- 행아웃으로 진행
- 스터디 날짜 재조정
- 3회차 - 190909(월)
이성준
4. 스파크 설정고준희
5.1 데이터셋 ~ 5.4 스파크 세션이채윤
5.5.1 데이터프레임 생성임진수
5.5.2 주요 연산 및 사용법
- 4회차 - 190917(화)
- 행아웃으로 진행
임진수
5.6 데이터셋 ~ 5.10 쿼리플랜(Query Plan)과 디버깅
- 종료
- 스파크 스트리밍 부터는 개별로 진행
- 커피랑도서관 야탑역점, 매주 목요일(19:00~21:00)
- 다음의 경우 5000원 납부
- 지각한 경우
- 미리 얘기하지 않고 당일 결석한 경우
- 당일 결석은 한번만 허용함 (정말 급한 상황을 고려)
- 결석해야 하는 경우, 결석하는 전 주 스터디 날까지 공유해야 함
- 과제를 하지 않았을 경우
- 이채윤: 7월 31일 ~ 8월 7일 (2회)