Home Airflow Lecture 1
Post
Cancel

Airflow Lecture 1

Data Organization

  • Data Engineering Team
    • Managing Data Warehouse
    • Writing and Managing Data-Pipelines
      • Data-Pipeline == ETL(Extract, Transform, Load) == Data Job == DAG(Airflow)
    • Type of Data-Pipelines
      • Batch Processing
      • Real-time Processing
      • Summary Data Generation(ELT: 이미 data-warehouse에 올라간 데이터를 활용, 데이터 분석가가 많이 작업함)
    • Event Collection
  • SQL / Python / Scalar / Java
  • AirFlow
  • Spark, Hadoop
  • AWS
  • K8S, Docker
  • ML, A/B Test, Statistics

RedShift

Data Warehouse ?

  • A Seperate SQL DataBase (Not a Production DataBase)
    • Production DataBase 는 주로 서비스 이용자가 사용하는 DB이며 속도가 중요하고, Online Transaction Processing (OLTP) 에 특화되어 있다.
    • Data Warehouse 는 분석을 위한 DB이며, 속도 보다는 대용량 처리가 중요하고, Online Analytical Processing (OLAP) 에 특화되어 있다.
  • Central Data Storage of our company
  • Fixed Cost Option (RedShift) vs Variable Cost Option (Bigquery, SnowFlake)
This post is licensed under CC BY 4.0 by the author.