Home
Daily Record
Cancel
Hive Architecture

Apache Hive 성능 개선 톺아보기 2탄

들어가며 이전 포스팅 에서는 Hive on MR 환경에서의 Hive 성능 튜닝 과정을 알아봤는데요, 이번 Apache Hive 성능 개선 톺아보기 2탄에서는 이어서 Hive의 또 다른 엔진인 Apache Tez 에 대한 개요와설치 및 빌드 방법, 그리고 Tez 에서의 성능 개선 방안에 대해 알아보도록 하겠습니다. Hive on Tez 시작하...

Hive Architecture

Apache Hive 성능 개선 톺아보기 1탄

들어가며 이번 포스팅에서는 Apache Hive™ 의 성능을 개선하기 위한 여러 방법을 알아보고 정리하는 시간을 가져보려고 합니다. 공식 문서에서 확인할 수 있듯이, Apache Hive는 분산 스토리지에서 대용량의 데이터는 SQL로 질의하기 위한 소프트웨어 입니다. The Apache Hive™ data warehouse software...

Preview Image

조금 이른 회고, 그리고 방향성

들어가며   가을이 왔다는 것을 점차 피부로 체감하고 있는 요즘입니다. 개인적으로 회고하는 시간이 익숙하지는 않지만 이렇게 지난 시간을 돌아보고 앞으로에 대한 계획을 글로 정리해 볼 수 있다는 것은 참 감사한 일인 것 같습니다. 이번 포스팅에서는 많은 일들이 있었던 2024년의 1분기 ~ 3분기를 되돌아보고 앞으로의 계획을 정리해보는 시간을 가져...

Preview Image

Wireguard로 간편하게 VPN 환경 구성하기

들어가며 WireGuard 는 간단하고 빠르며 보안이 강한 최신 VPN 프로토콜입니다. 최소한의 코드로 높은 성능과 쉽게 설정 가능한 VPN 연결을 제공합니다. 이번 포스팅에서는 WireGuard를 통해 간편하게 홈 네트워크에 접속하는 VPN 환경을 구성하도록 하겠습니다. VPN이란? VPN이란 가상 사설 네트워크를 의미하는 Virtua...

빅데이터분석기사

빅데이터분석기사 취득기

들어가며 이번 포스팅은 빅데이터 분석기사 시험을 준비하며 공부했던 내용들을 공유하는 글입니다. 시험난이도 : 중 준비시간 : 약 10일 (평일 2시간, 주말 4시간) [ 필기 시험 준비내용 ] PART1. 빅데이터 분석 기획 (기본개념) (상) 빅데이터 개요 및 활용 가트너 3V : Volume(규모)...

flutter

Flutter 모바일 청첩장 제작기

이전 포스팅 확인하기 모바일 청첩장 링크 들어가며 이번 포스팅에서는 강의에서 배운 Flutter 로 모바일 청첩장을 제작했던 과정이 머릿속에서 완전히 지워지기 전에 :) 짧게나마 기록으로 남기고자 합니다. 바로 본론으로 들어가겠습니다. 1. 개발환경 저는 Flutter Web 으로 개발하였고, IDE 툴은 android stud...

기획부터 개발까지 한방에 도전하는 Flutter 수익형 기초 앱 개발

Flutter 수익형 앱 개발 기초 수강 후기

본 포스팅은 글또 9기 활등 중 Udemy 로부터 강의 쿠폰을 지원받아 작성되었습니다. 【기획부터 개발까지 한방에 도전하는 플러터(Flutter) 수익형 기초 앱 개발 이번 포스팅은 ‘글또 9기’ 활동 중 일부로, Udemy에서 지원해주신 쿠폰으로 수강한 기획부터 개발까지 한방에 도전하는 플러터(Flutter) 수익형 기초 앱 개...

【한글자막】 Java 멀티스레딩, 병행성 및 성능 최적화 - 전문가 되기, 강사) Michael Pogrebinsky

Java 멀티스레딩, 병행성, 성능 최적화 강의 후기

본 포스팅은 글또 9기 활등 중 Udemy 로부터 강의 쿠폰을 지원받아 작성되었습니다. 【한글자막】 Java 멀티스레딩, 병행성 및 성능 최적화 이번 포스팅은 ‘글또 9기’ 활동 중 일부로, Udemy에서 지원해주신 쿠폰으로 수강한 【한글자막】 Java 멀티스레딩, 병행성 및 성능 최적화 강의에 대한 후기 글 입니다. 멀티스레드의 ...

(출처) 니시다 케이스케(Keisuke Nishida), ⌜빅데이터를 지탱하는 기술(BIG DATA WO SASAERU GIJUTSU)⌟, 장성두 옮김, 주식회사 제이펍

6. 빅데이터 분석 기반의 구축

들어가며 이번 장은 ⌜빅데이터를 지탱하는 기술⌟ 리뷰의 마지막 장으로, 지금까지 배운 내용들을 기반으로 실제 실습을 진행해보도록 하겠습니다. 1. Spark를 통한 대화식 애드 혹 분석 스키마리스 데이터 수집 먼저, 실제 데이터를 수집하는 과정이 필요합니다. 책에서 사용한 twitter streaming api는 무료계정으로 사용하는 것이 불가...

(출처) 니시다 케이스케(Keisuke Nishida), ⌜빅데이터를 지탱하는 기술(BIG DATA WO SASAERU GIJUTSU)⌟, 장성두 옮김, 주식회사 제이펍

5. 빅데이터의 파이프라인

들어가며 1. 워크플로우 관리 워크플로우 관리(workflow management) 란 정기적인 Task를 원할하게 실행하고, 비정상적인 Task를 감지하여 해결하는 행위를 말합니다. 워크플로우 관리 도구(workflow management tool)의 기능 Task를 정기적인 스케줄로 실행하고, 그 결과를 통지한다. ...

(출처) 니시다 케이스케(Keisuke Nishida), ⌜빅데이터를 지탱하는 기술(BIG DATA WO SASAERU GIJUTSU)⌟, 장성두 옮김, 주식회사 제이펍

4. 빅데이터의 축적

들어가며 1. 벌크와 스트리밍 데이터 전송 bulk and streaming 데이터 수집 이란 수집한 데이터를 가공하여 집계 효율이 좋은 분산 스토리지를 만드는 과정을 말합니다. 빅데이터를 저장하기 위한 저장소로 객체 스토리지(object storage)를 많이 사용합니다. 파일 스토리지와 다르게 객체 스토리지(object stor...

(출처) 니시다 케이스케(Keisuke Nishida), ⌜빅데이터를 지탱하는 기술(BIG DATA WO SASAERU GIJUTSU)⌟, 장성두 옮김, 주식회사 제이펍

3. 빅데이터의 분산처리

들어가며 3장은 데이터 마트를 구축하는 파이프라인을 분산 처리의 관점으로 살펴봅니다. 크게 보면 1) 분산스토리지에 저장된 데이터를 구조화, 2) 열 지향 스토리지 형식으로 저장, 3) 완성한 구조화 데이터를 결합,집계하여 데이터 마트(비정규) 생성, 4) 배치 혹은 애드 훅 등 상황에 맞는 쿼리엔진으로 질의 의 순서로 이루어집니다. 이 과정에 핵심...