들어가며 2장은 크게 아래 세가지 정도로 요약할 수 있습니다 :) 크로스 집계란 무엇인가 열 지향 스토리지와 MPP 아키텍쳐 시각화에 적합한 데이터 마트 1. 크로스 집계란 무엇인가? cross tabulation example 테이블 중에서는 그 모양에 따라 사람이 보기 편한 구조로 만들어진 테이블이 있습니다. 행과 열에는 ...
2. 빅데이터의 탐색
1. 빅데이터의 기초 지식
들어가며 ⌜빅데이터를 지탱하는 기술⌟ 은 일명 ‘빅지기’ 로 불리며 오픈 채팅방 등에서 데이터 엔지니어링의 입문용으로 많이 추천되는 책입니다. 사실 몇년 전 취준생일때 한번 읽어보고는 책장에 꽂아두기만 했는데요, 최근에 다시 꺼내어 조금씩 곱씹어가며 읽어보니 예전과는 또 다른 재미가 있었습니다. 첫번째는 거시적인 관점에서 머릿속의 개...
ElasticSearch Heap 메모리와 샤드 최적화 2
들어가며 지난번 포스팅에서는 elasticsearch의 JVM-heap-memory가 증가한 원인에 대해 알아봤습니다. 이번 포스팅에서는 적절한 샤드 구성은 어떻게 할 수 있는지 간단하게 알아보도록 하겠습니다. 샤드(Shard)란 무엇인가 primary shard and replication shard elasticsearch 에서는 인덱스에 데...
ElasticSearch Heap 메모리와 샤드 최적화 1
들어가며 엘라스틱 서치를 구축하고 운영하다보면 어느순간부터 예측하지 못한 여러 문제들을 마주하게 됩니다. 이번에는 운영중이던 엘라스틱서치 8.6 클러스터의 JVM 힙 메모리가 증가한 원인과 이를 해결하기 위한 과정을 기록하고자 합니다. Elasticsearch 안정적으로 운영하기 Kibana stack-management 화면의 예시 Elast...
Airflow Lecture 7
CTAS의 단점 원본 테이블의 속성들(DEFAULT) 이 사라진다. 이런 경우에는 단계를 나누어 진행한다. 구글 시트 연동하기 Google sheet -> RedShift table API & Airflow monitoring curl -X GET –user “airflow:airflow” http://local...
SQLD(SQL Developer) 취득기
SQLD ### 모델링이란 - 현실세계를 ### 데이터 모델링의 특징 1) 추상화(Abstraction) 2) 단순화(Simplification) 3) 명확화(Clarity) ### 데이터 모델링의 관점 1) 데이터 관점 2) 프로세스 관점 3) 데이터와 프로세스의 상관 관점 ### 데이터 모델링의 단계 1) 개념적 데이터 모...
Airflow Lecture 6
OLTP 테이블을 RedShift 로 복사하기 flowchart LR OLTP["`Production MySQL Tables (OLTP)`"] OLAP["`DataWareHouse AWS RedShift (OLAP)`"] OLTP --> OLAP 위와 같이 PRODUCTION TABLE 을 DW인 AW...
Airflow Lecture 4
TRANSACTION Atomic 하게 실행되어야 하는 SQL 들을 묶어서 하나의 작업처럼 처리하는 방법 Transaction Isolation Level 은 Read Commited 가 디폴트 세팅 python 의 경우, try/catch 와 같이 사용하는 것이 일박적이며, 끝에 raise를 붙여준다. Airflow TestCode...
ADsP(Advanced Data Analytics Semi-Professional) 취득기
ADsP 1️⃣ 데이터 이해 - ERP : 회사의 정보 뿐 아니라 공급망 관리, 고객의 주문정보 등 통합적으로 관리 SCM : 외부 업체와 시스템 연계하여 비용최적화 2️⃣ 데이터 분석 기획 - 빅데이터 4V : 가비 크다속투 - Value 비즈니스효과(Return) | Volume,Variety,Velocity 투자비용(investmen...
Airflow Lecture 3
ETL : Extract, Transform, Load Data Pipeline, ETL, Data Workflow, DAG(Directed Acyclic Graph) ELT : Data-warehouse 내에 이미 있는 내부 데이터를 조작해서 요약된 데이터를 만드는 것. Data Lake vs Data Warehouse Data L...
Airflow Lecture 2
The way how to use Chat-GPT in SQL 아래와같은두개의테이블이있어. CREATE TABLE raw_data.user_session_channel ( userid integer , sessionid varchar(32), channel varchar(32), Primary key sessioni...
Airflow Lecture 1
Data Organization Data Engineering Team Managing Data Warehouse Writing and Managing Data-Pipelines Data-Pipeline == ETL(Extract, Transform, Load) == Data Jo...