EMR (Elastic Map Reduce) Hadoop은 병렬처리(PPM)와 Object-Storage(HDFS)를 의미한다. AWS는 병렬처리는 지원하지만 HDFS는 지원하지 않고자 했기때문에(지금은 지원) 데이터 저장소 보다는 프로세싱 엔진으로 생각하는 편이 좋다. 실습 1. EMR 에서 Spark 코드 실행하기 1. EMR...
Cloud-Data-Infra - 4차
Cloud-Data-Infra - 3차
실습 1. AWS LoadBalancers 1. VPC Wizard 통해 생성 - (kbi-0127-main-vpc) / 10.0.0.0/16 2. EC2 Instance 2대 생성 - (demo-vm-01,02) 3. 각 Instance 별로 서버 띄우기 - sudo yum install -y httpd - su...
Cloud-Data-Infra - 2차
Schema on Write vs Schema on Read Schema on Write : Schema on Read : NoSQL 이란? Schemaless, Schema-Free O(1) Unlimited Scale-out : 제약없는 확장이 가능하도록 key-value : String-Json 구조 document : 한 장의 데이터...
Cloud-Data-Infra - 1차
Story 1. Cloud, A programmable Resource Management A programmable Resource Management programmable : Virtualization, Automation Elastic (Scale-out) Available (HA) Resil...
AWS Solution Architect Associate 취득기
Solution Architect Associate IAM (Identity and Access Management) IAM : IP대역 문제에서, 예를들어 10.100.100.0/24 라면 처음 4개와 마지막 IP는 AWS에서 사용하므로 사용할 수 없다. 0,1,2,3,255 는 AWS에서 예약해두었다. ...
Oracle installation in Mac
Oracle-xe:11 install in Mac (with Docker, DBeaver) 1. Install colima brew install colima 2. Install Oracle-xe-11 with Docker colima start --memory 4 --arch x86_64 docker run --name oracle -v ...
to be continue... YARN
YARN(Yet Another Resource Negotiator) 이번에는 HADOOP의 또다른 주요 컴포넌트 중 하나인 YARN에 대해 포스팅하도록 하겠습니다 YARN은 HADOOP 2에서 부터 도입되어 Resource-Manager의 역할을 하고 있습니다. MapReduce 1.0 에서는 MasterNode 의 역할을 JobTracker 에서...
HDFS - CLI
Apache HDFS Command Guide (3.3.2.ver) HADOOP Basic Cli Commands Hadoop 에서 cli 명령어는 아래 두가지 커맨드를 사용할 수 있다. 가지 커맨드 중 마음에 드는 놈으로 사용하면 된다. 리눅스 커맨드와 매우 유사하여 사용하기 편리하다. # 기본 명령어 hadoop fs -help # 혹은 hd...
HADOOP은 어떻게 발전해왔나?
Apache Hadoop Apache Hadoop은 대량의 데이터를 저장하고 계산을 수행하기 위한 오픈소스 소프트웨어 프로그래밍 프레임워크 입니다. 이번 포스팅에서는 HADOOP이 여러 버전을 거쳐 발전해 오면서 어떤 변화들이 있었는지 알아보도록 하겠습니다. Hadoop Version 1 Main : HDFS + MAPREDUCE(...
Airflow Lecture 5
Open Weather API Primary Key Uniqueness 보장하는 방법?? Upsert(다음시간에) BackFill (데이터 엔지니어의 삶의 질을 결정한다..!!) Incremental Update 가 실패하는 경우 가능하면 Full-Refresh 를 하는 것이 좋다. ...
10. kubernetes monitoring
kubernetes monitoring Monitoring CAdvisor(:exporter의 한 종류) 와 같은 컨테이너 모니터링 에이전트들은 /metrics 라고 하는 경로를 외부에 노출시켜 메트릭 데이터를 오픈하고, 해당 경로로 요청을 보내면 CAdvisor는 key-value 쌍으로 구성된 메트릭 데이터의 목록을 반환한다. 이 경로를 프로메...
9. Other objects using pod
Other objects using pod Other Objects using pod Jobs 특정 동작을 수행하고 종료해야 하는 작업을 위한 오브젝트를 말한다. 포드가 실행되어 정상적으로 종료되는 것(포드 컨테이너가 종료코드로서 0을 반환해 Completed 상태가 되는 것)을 목표로 한다. spec.completions: job이 성공하...