Home
Daily Record
Cancel
(출처) 니시다 케이스케(Keisuke Nishida), ⌜빅데이터를 지탱하는 기술(BIG DATA WO SASAERU GIJUTSU)⌟, 장성두 옮김, 주식회사 제이펍

1. 빅데이터의 기초 지식

들어가며 ⌜빅데이터를 지탱하는 기술⌟ 은 일명 ‘빅지기’ 로 불리며 오픈 채팅방 등에서 데이터 엔지니어링의 입문용으로 많이 추천되는 책입니다. 사실 몇년 전 취준생일때 한번 읽어보고는 책장에 꽂아두기만 했는데요, 최근에 다시 꺼내어 조금씩 곱씹어가며 읽어보니 예전과는 또 다른 재미가 있었습니다. 첫번째는 거시적인 관점에서 머릿속의 개...

elasticsearch 8.6

ElasticSearch Heap 메모리와 샤드 최적화 2

들어가며 지난번 포스팅에서는 elasticsearch의 JVM-heap-memory가 증가한 원인에 대해 알아봤습니다. 이번 포스팅에서는 적절한 샤드 구성은 어떻게 할 수 있는지 간단하게 알아보도록 하겠습니다. 샤드(Shard)란 무엇인가 primary shard and replication shard elasticsearch 에서는 인덱스에 데...

elasticsearch 8.6

ElasticSearch Heap 메모리와 샤드 최적화 1

들어가며 엘라스틱 서치를 구축하고 운영하다보면 어느순간부터 예측하지 못한 여러 문제들을 마주하게 됩니다. 이번에는 운영중이던 엘라스틱서치 8.6 클러스터의 JVM 힙 메모리가 증가한 원인과 이를 해결하기 위한 과정을 기록하고자 합니다. Elasticsearch 안정적으로 운영하기 Kibana stack-management 화면의 예시 Elast...

Preview Image

Airflow Lecture 7

CTAS의 단점 원본 테이블의 속성들(DEFAULT) 이 사라진다. 이런 경우에는 단계를 나누어 진행한다. 구글 시트 연동하기 Google sheet -> RedShift table API & Airflow monitoring curl -X GET –user “airflow:airflow” http://local...

SQLD(SQL Developer) 취득기

SQLD(SQL Developer) 취득기

SQLD ### 모델링이란 - 현실세계를 ### 데이터 모델링의 특징 1) 추상화(Abstraction) 2) 단순화(Simplification) 3) 명확화(Clarity) ### 데이터 모델링의 관점 1) 데이터 관점 2) 프로세스 관점 3) 데이터와 프로세스의 상관 관점 ### 데이터 모델링의 단계 1) 개념적 데이터 모...

Preview Image

Airflow Lecture 6

OLTP 테이블을 RedShift 로 복사하기 flowchart LR OLTP["`Production MySQL Tables (OLTP)`"] OLAP["`DataWareHouse AWS RedShift (OLAP)`"] OLTP --> OLAP 위와 같이 PRODUCTION TABLE 을 DW인 AW...

Preview Image

Airflow Lecture 4

TRANSACTION Atomic 하게 실행되어야 하는 SQL 들을 묶어서 하나의 작업처럼 처리하는 방법 Transaction Isolation Level 은 Read Commited 가 디폴트 세팅 python 의 경우, try/catch 와 같이 사용하는 것이 일박적이며, 끝에 raise를 붙여준다. Airflow TestCode...

ADsP(Advanced Data Analytics Semi-Professional) 취득기

ADsP(Advanced Data Analytics Semi-Professional) 취득기

ADsP 1️⃣ 데이터 이해 - ERP : 회사의 정보 뿐 아니라 공급망 관리, 고객의 주문정보 등 통합적으로 관리 SCM : 외부 업체와 시스템 연계하여 비용최적화 2️⃣ 데이터 분석 기획 - 빅데이터 4V : 가비 크다속투 - Value 비즈니스효과(Return) | Volume,Variety,Velocity 투자비용(investmen...

Preview Image

Airflow Lecture 3

ETL : Extract, Transform, Load Data Pipeline, ETL, Data Workflow, DAG(Directed Acyclic Graph) ELT : Data-warehouse 내에 이미 있는 내부 데이터를 조작해서 요약된 데이터를 만드는 것. Data Lake vs Data Warehouse Data L...

Preview Image

Airflow Lecture 2

The way how to use Chat-GPT in SQL 아래와같은두개의테이블이있어. CREATE TABLE raw_data.user_session_channel ( userid integer , sessionid varchar(32), channel varchar(32), Primary key sessioni...

Preview Image

Airflow Lecture 1

Data Organization Data Engineering Team Managing Data Warehouse Writing and Managing Data-Pipelines Data-Pipeline == ETL(Extract, Transform, Load) == Data Jo...

한국금융연수원

Cloud-Data-Infra - 5차

Amazon Glue AWS Glue는 분석 사용자가 여러 소스의 데이터를 쉽게 검색, 준비, 이동, 통합할 수 있도록 하는 서버리스 데이터 통합 서비스입니다. 분석, 기계 학습 및 애플리케이션 개발에 사용할 수 있습니다. 또한 작성, 작업 실행, 비즈니스 워크플로 구현을 위한 추가 생산성 및 데이터 운영 도구도 포함됩니다. AWS Glue...