Home
Daily Record
Cancel
Preview Image

Airflow Lecture 7

CTAS의 단점 원본 테이블의 속성들(DEFAULT) 이 사라진다. 이런 경우에는 단계를 나누어 진행한다. 구글 시트 연동하기 Google sheet -> RedShift table API & Airflow monitoring curl -X GET –user “airflow:airflow” http://local...

SQLD(SQL Developer) 취득기

SQLD(SQL Developer) 취득기

SQLD ### 모델링이란 - 현실세계를 ### 데이터 모델링의 특징 1) 추상화(Abstraction) 2) 단순화(Simplification) 3) 명확화(Clarity) ### 데이터 모델링의 관점 1) 데이터 관점 2) 프로세스 관점 3) 데이터와 프로세스의 상관 관점 ### 데이터 모델링의 단계 1) 개념적 데이터 모...

Preview Image

Airflow Lecture 6

OLTP 테이블을 RedShift 로 복사하기 flowchart LR OLTP["`Production MySQL Tables (OLTP)`"] OLAP["`DataWareHouse AWS RedShift (OLAP)`"] OLTP --> OLAP 위와 같이 PRODUCTION TABLE 을 DW인 AW...

Preview Image

Airflow Lecture 4

TRANSACTION Atomic 하게 실행되어야 하는 SQL 들을 묶어서 하나의 작업처럼 처리하는 방법 Transaction Isolation Level 은 Read Commited 가 디폴트 세팅 python 의 경우, try/catch 와 같이 사용하는 것이 일박적이며, 끝에 raise를 붙여준다. Airflow TestCode...

ADsP(Advanced Data Analytics Semi-Professional) 취득기

ADsP(Advanced Data Analytics Semi-Professional) 취득기

ADsP 1️⃣ 데이터 이해 - ERP : 회사의 정보 뿐 아니라 공급망 관리, 고객의 주문정보 등 통합적으로 관리 SCM : 외부 업체와 시스템 연계하여 비용최적화 2️⃣ 데이터 분석 기획 - 빅데이터 4V : 가비 크다속투 - Value 비즈니스효과(Return) | Volume,Variety,Velocity 투자비용(investmen...

Preview Image

Airflow Lecture 3

ETL : Extract, Transform, Load Data Pipeline, ETL, Data Workflow, DAG(Directed Acyclic Graph) ELT : Data-warehouse 내에 이미 있는 내부 데이터를 조작해서 요약된 데이터를 만드는 것. Data Lake vs Data Warehouse Data L...

Preview Image

Airflow Lecture 2

The way how to use Chat-GPT in SQL 아래와같은두개의테이블이있어. CREATE TABLE raw_data.user_session_channel ( userid integer , sessionid varchar(32), channel varchar(32), Primary key sessioni...

Preview Image

Airflow Lecture 1

Data Organization Data Engineering Team Managing Data Warehouse Writing and Managing Data-Pipelines Data-Pipeline == ETL(Extract, Transform, Load) == Data Jo...

한국금융연수원

Cloud-Data-Infra - 5차

Amazon Glue AWS Glue는 분석 사용자가 여러 소스의 데이터를 쉽게 검색, 준비, 이동, 통합할 수 있도록 하는 서버리스 데이터 통합 서비스입니다. 분석, 기계 학습 및 애플리케이션 개발에 사용할 수 있습니다. 또한 작성, 작업 실행, 비즈니스 워크플로 구현을 위한 추가 생산성 및 데이터 운영 도구도 포함됩니다. AWS Glue...

한국금융연수원

Cloud-Data-Infra - 4차

EMR (Elastic Map Reduce) Hadoop은 병렬처리(PPM)와 Object-Storage(HDFS)를 의미한다. AWS는 병렬처리는 지원하지만 HDFS는 지원하지 않고자 했기때문에(지금은 지원) 데이터 저장소 보다는 프로세싱 엔진으로 생각하는 편이 좋다. 실습 1. EMR 에서 Spark 코드 실행하기 1. EMR...