Data Organization
- Data Engineering Team
- Managing Data Warehouse
- Writing and Managing Data-Pipelines
- Data-Pipeline == ETL(Extract, Transform, Load) == Data Job == DAG(Airflow)
- Type of Data-Pipelines
- Batch Processing
- Real-time Processing
- Summary Data Generation(ELT: 이미 data-warehouse에 올라간 데이터를 활용, 데이터 분석가가 많이 작업함)
- Event Collection
- SQL / Python / Scalar / Java
- AirFlow
- Spark, Hadoop
- AWS
- K8S, Docker
- ML, A/B Test, Statistics
RedShift
Data Warehouse ?
- A Seperate SQL DataBase (Not a Production DataBase)
- Production DataBase 는 주로 서비스 이용자가 사용하는 DB이며 속도가 중요하고, Online Transaction Processing (OLTP) 에 특화되어 있다.
- Data Warehouse 는 분석을 위한 DB이며, 속도 보다는 대용량 처리가 중요하고, Online Analytical Processing (OLAP) 에 특화되어 있다.
- Central Data Storage of our company
- Fixed Cost Option (RedShift) vs Variable Cost Option (Bigquery, SnowFlake)