들어가며 1. 워크플로우 관리 워크플로우 관리(workflow management) 란 정기적인 Task를 원할하게 실행하고, 비정상적인 Task를 감지하여 해결하는 행위를 말합니다. 워크플로우 관리 도구(workflow management tool)의 기능 Task를 정기적인 스케줄로 실행하고, 그 결과를 통지한다. ...

5. 빅데이터의 파이프라인

4. 빅데이터의 축적
들어가며 1. 벌크와 스트리밍 데이터 전송 bulk and streaming 데이터 수집 이란 수집한 데이터를 가공하여 집계 효율이 좋은 분산 스토리지를 만드는 과정을 말합니다. 빅데이터를 저장하기 위한 저장소로 객체 스토리지(object storage)를 많이 사용합니다. 파일 스토리지와 다르게 객체 스토리지(object stor...

3. 빅데이터의 분산처리
들어가며 3장은 데이터 마트를 구축하는 파이프라인을 분산 처리의 관점으로 살펴봅니다. 크게 보면 1) 분산스토리지에 저장된 데이터를 구조화, 2) 열 지향 스토리지 형식으로 저장, 3) 완성한 구조화 데이터를 결합,집계하여 데이터 마트(비정규) 생성, 4) 배치 혹은 애드 훅 등 상황에 맞는 쿼리엔진으로 질의 의 순서로 이루어집니다. 이 과정에 핵심...

2. 빅데이터의 탐색
들어가며 2장은 크게 아래 세가지 정도로 요약할 수 있습니다 :) 크로스 집계란 무엇인가 열 지향 스토리지와 MPP 아키텍쳐 시각화에 적합한 데이터 마트 1. 크로스 집계란 무엇인가? cross tabulation example 테이블 중에서는 그 모양에 따라 사람이 보기 편한 구조로 만들어진 테이블이 있습니다. 행과 열에는 ...

1. 빅데이터의 기초 지식
들어가며 ⌜빅데이터를 지탱하는 기술⌟ 은 일명 ‘빅지기’ 로 불리며 오픈 채팅방 등에서 데이터 엔지니어링의 입문용으로 많이 추천되는 책입니다. 사실 몇년 전 취준생일때 한번 읽어보고는 책장에 꽂아두기만 했는데요, 최근에 다시 꺼내어 조금씩 곱씹어가며 읽어보니 예전과는 또 다른 재미가 있었습니다. 첫번째는 거시적인 관점에서 머릿속의 개...

ElasticSearch Heap 메모리와 샤드 최적화 2
들어가며 지난번 포스팅에서는 elasticsearch의 JVM-heap-memory가 증가한 원인에 대해 알아봤습니다. 이번 포스팅에서는 적절한 샤드 구성은 어떻게 할 수 있는지 간단하게 알아보도록 하겠습니다. 샤드(Shard)란 무엇인가 primary shard and replication shard elasticsearch 에서는 인덱스에 데...

ElasticSearch Heap 메모리와 샤드 최적화 1
들어가며 엘라스틱 서치를 구축하고 운영하다보면 어느순간부터 예측하지 못한 여러 문제들을 마주하게 됩니다. 이번에는 운영중이던 엘라스틱서치 8.6 클러스터의 JVM 힙 메모리가 증가한 원인과 이를 해결하기 위한 과정을 기록하고자 합니다. Elasticsearch 안정적으로 운영하기 Kibana stack-management 화면의 예시 Elast...

Airflow Lecture 7
CTAS의 단점 원본 테이블의 속성들(DEFAULT) 이 사라진다. 이런 경우에는 단계를 나누어 진행한다. 구글 시트 연동하기 Google sheet -> RedShift table API & Airflow monitoring curl -X GET –user “airflow:airflow” http://local...

SQLD(SQL Developer) 취득기
SQLD ### 모델링이란 - 현실세계를 ### 데이터 모델링의 특징 1) 추상화(Abstraction) 2) 단순화(Simplification) 3) 명확화(Clarity) ### 데이터 모델링의 관점 1) 데이터 관점 2) 프로세스 관점 3) 데이터와 프로세스의 상관 관점 ### 데이터 모델링의 단계 1) 개념적 데이터 모...

Airflow Lecture 6
OLTP 테이블을 RedShift 로 복사하기 flowchart LR OLTP["`Production MySQL Tables (OLTP)`"] OLAP["`DataWareHouse AWS RedShift (OLAP)`"] OLTP --> OLAP 위와 같이 PRODUCTION TABLE 을 DW인 AW...