Home Airflow Lecture 5
Post
Cancel

Airflow Lecture 5

Open Weather API

  • Primary Key Uniqueness 보장하는 방법??

  • Upsert(다음시간에)

BackFill (데이터 엔지니어의 삶의 질을 결정한다..!!)

  • Incremental Update 가 실패하는 경우
    • 가능하면 Full-Refresh 를 하는 것이 좋다.
    • Incremental Update는 효율이 좋지만, 운영/유지보수의 난이도가 올라간다.
  • 지난 1년치를 BackFill 해야한다면?!?
    • 개선 1) 데이터 파이프라인의 스케줄에 따라, 해당 작업이 돌아야 했던 변수를 시스템에서 가지고 있게 한다. - execution_date
    • 개선 2) start_date(: 처음 읽어오고 싶은 데이터의 날짜와 시간을 의미하며, DAG가 실행되는 날짜가 아니다) 을
    • 개선 3) 1번 실행하는 경우, 스케줄을 ‘@once’ 로 표기하면 1번만 실행된다.
    • 개선 4) catchup을 잘 설정한다. 그동안 안돈것 까지 다 돌아버릴 수 있다.

과제

    1. QUIZ
      • https://docs.google.com/forms/d/e/1FAIpQLSf2nEGorpV0rpaR6uiHVRzTvnM8CAcsorPtkuJT39j5jvWFdw/viewform
    1. UpdateSymbol_v2의 Incremental Update 방식 수정해보기 ● 앞서 배운 ROW_NUMBER 방식을 사용해서 Primary key가 동일한 레코드들을 처리하기 ● 테이블에 아래 필드 추가 ○ created_date timestamp default GETDATE()
This post is licensed under CC BY 4.0 by the author.