개요
워크폴로우 관리툴로 Airflow는 널리 사용되고 있습니다.
이 스터디는 airflow 2.0을 함께 공부하며, 방법으로는 책/인터넷 강의의 내용을 공유합니다.
스터디 시간
22/4/13 ~ 6/29 (3개월)
- 매주 월요일 8시
컨텐츠
책
- Apache Airflow 기반의 데이터 파이프라인 - 에어플로 중심의 워크플로 구축에서 커스텀 컴포넌트 개발 및 배포, 관리까지 : https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=290091682
유데미 강의
(4.2/ 2,539/ 9h)Apache Airflow on AWS EKS: The Hands-On Guide : https://www.udemy.com/course/apache-airflow-on-aws-eks-the-hands-on-guide/
- (4.6/ 27,971/ 6h)The Complete Hands-On Introduction to Apache Airflow : https://www.udemy.com/course/the-complete-hands-on-course-to-master-apache-airflow/
(4.6/ 14,705/ 14h)Apache Airflow: The Hands-On Guide : https://www.udemy.com/course/the-ultimate-hands-on-course-to-master-apache-airflow/
공식 문서
스터디원
진행 방법
- 한 명씩 돌아가며 주제를 정하고 화면 공유를 통해 사례를 보여 주거나, 서비스를 클라우드에 올려서 함께 실습해 봅니다.
- 주제 예시
- 새로운 DAG 작성법인 Taskflow API에 익숙해지기
- 특정 상황을 정해서 어떤 구성이 가장 좋은지 논의
- Spark Job은 어떤 식으로 돌리는 게 좋을까?
- SparkJDBCOperator vs Kubernetes Operator vs SparkSqlOperator vs SparkSubmitOperator
- 에러 상황 시 분기 처리는 어떻게 하는 게 좋을까?
예상 결과물
Airflow 2.0의 새로운 문법 학습과 상황별 사례 정리
진행 과정
일단은 매주 1장씩 하는걸로 적어놨어요.. 진행하면서 조율해봐요 ㅎ
주차 | 날짜 | 분량 (개략적으로 적었습니다. 매번 논의해 수정합니다.) | 담당자 |
---|---|---|---|
1주차 | 4/18 | 자기소개, 스터디 진행 방식 공유, 1/2장 | 김학건 |
2주차 | 4/25 | 3장: Airflow의 스케줄링 | |
3주차 | 5/2 | 4장: Airflow 콘텍스트를 사용하여 태스크 템플릿 작업하기 | |
4주차 | 5/8 | 5장: 태스크 간 의존성 정의하기 | |
5주차 | 5/16 | 6장: 워크 플로우 트리거 | |
6주차 | 5/23 | 7장: 외부 시스템과 통신하기 | |
7주차 | 5/30 | 8장: 커스텀 컴포넌트 빌드 | |
8주차 | 6/6 | 9장: 테스트하기 | |
9주차 | 6/13 | 10장: 컨테이너에서 태스크 실행하기 | |
10주차 | 6/20 | 11장: 모범 사례 | |
11주차 | 6/27 | 마무리 | 김학건 |