Home 빅데이터분석기사 취득기
Post
Cancel

빅데이터분석기사 취득기

필기 시험 준비

  • 시험난이도 : 중
  • 준비시간 : 약 10일 (평일 2시간, 주말 4시간)

PART1 요약. 빅데이터 분석 기획 (기본개념)

  1. (상) 빅데이터 개요 및 활용
    • 가트너 3V : Volume(규모), Variety(다양성), Velocity(속도), +Veracity(품질), +Value(가치)
    • 빅데이터 활용 3요소 : 자원(빅데이터), 기술(빅데이터플랫폼,AI), 인력(알고리즈미스트,데이터사이언티스트)
    • 정보의 특징 : 정확성, 적시성, 적당성, 관련성 (일관성은 아님;;)
    • 지식창조 메커니즘 단계 : 공통화(인식 공유하여 암묵지로) - 표출화(암묵지가 구체화되어 형식지로) - 연결화(형식지를 재분류하여 체계화) - 내면화(전달받은 형식지를 개인의 것으로)

      암묵지) 학습과 경험을 통하여 개인에게 체화되어 있지만 겉으로 드러나지 않은 지식
      형식지) 명시적으로 알 수 없는 형태. 형식을 갖추어 표현되고 공유가 가능한 지식

  • DW 구성요소 : 데이터 모델, ETL, ODS(다양한 DBMS 통합관리), Meta-Data, OLAP, 데이터마이닝, 분석TOOL & 경영기반 솔루션(BI)

    데이터 웨어하우스 특징 : 주제지향성(Subject-Orientation), 통합성(Integration), 시계열성(Time-variant), 비휘발성(Non-volatilzation)

  • 조직의 구성 : 집중형(전사분석업무를 별도의 전담조직-DSCoE에서 수행), 기능형(각 부서에서 분석업무를 직접 수행), 분산형(분석 전문 인력-DSCoE 을 현업 부서에 배치하여 분석업무 수행)

    DSCoE : Data Science Center of Excellence - 분석전담조직

  1. (상) 빅데이터 기술 및 제도
    • 빅데이터 플랫폼 기능 : 컴퓨팅부하 ->(클러스터 자원할당), 저장부하 -> (메모리파일시스템), 네트워크부하 -> (최단거리노드탐색,대역폭분배)
    • 빅데이터 3계층 : 소프트웨어 계층(데이터 수집정제처리 등), 플랫폼 계층(작업스케줄링,자원할당), 인프라스트럭처 계층(스토리지관리,네트워크 배치 & 관리)
    • 빅데이터 처리과정 : 데이터생성 -> 수집(crawling,로그,sensor,openapi,ETL) -> 저장(NoSQL,HDFS,S3,NAS등) -> 처리(HADOOP,SPARK,MapReduce) -> 분석(분규,군집화,머신러닝,데이터마이닝,감정분석 등) -> 시각화

1) RDBMS 트랜젝션 속성 : 원자성(Atomicity), 일관성(Consistency), 독립성(Isolation), 지속성(Durability)
2) MapReduce 단계 : Split -> Map -> Shuffle -> Reduce
3) 분석 분류 : 탐구요인분석(EFA: 데이터간 상호관계), 확인요인분석(CFA: 변수들의 집합요소 구조파악)

  • 머신러닝 분류
    • 지도학습(Supervised Learning) : 분류, 회귀
    • 비지도학습(Unsupervised Learning) : 군집, 오토인코더(라벨이 설정되어 있지 않은 학습데이터로부터 효율적인 코드로 표현) -> 이상징후탐지, 노이즈제거, GAN(생성적 적대 신경망) -> 생성자는 가짜 사례를 생성, 감별자는 진위 판별하는 식으로 공방반복
    • 준지도학습(Semi-supervised Learning)
    • 강화학습(Reinforcement Learning) : 강화학습
  • 데이터 3법
    • 개인정보보호법/일반법 : 당사자의 동의 없이 개진정보의 수집,활용을 금지 -> 개인정보를 구체적으로 개인정보, 가명정보(도압), 익명정보로 구분
    • 정보통신망법/특별법-우선적용(정보통신망 이용 촉진 및 정보보호 등에 관한 법률) : 이용자의 동의 필요, 개인정보 위탁 시 동의 필요. -> 개인정보 관련 사항을 개인정보 보호법으로 이관
    • 신용정보보호법(신용정보의 이용 및 보호에 관한 법률) : 개인신용정보를 타 회사등에 제공하고자 하는 경우에는 서명 및 동의가 필요하다. -> 가명정보는 신용정보 주체의 동의없이 이용가능하다
  • GDPR : 유럽의회에서 유럽 시민들의 개인정보보호 강화를 위해 만든 규정
  • 비식별화 : 개인을 식별할 수 있는 요소를 전부 삭제하거나 대체하여 개인식별 불가하도록 만듬
    • 사전검토 -> 비식별조치 -> 적정성평가 -> 사후관리
  1. (상) 분석 방안 수립
    • 데이터 분석 기획 : 실제 분석을 시행하기에 앞서 분석을 수행할 과제의 정의 및 방안을 사전에 계획
    • 분석 기획의 절차 : 비즈니스 이해범위 설정 -> 프로젝트 정의 -> 수행계획 수립 -> 위험계획 수립
    • 목표 시점에 따라 : 단기적접근방식(과제중심적 접근), 중장기적접근방식(마스터플랜 접근), 혼합방식(분석기획시)
      • 마스터플랜 : 전체적인 방향성을 제시하는 기본계획
      • 분석로드맵 : 마스터플랜에서 정의한 목표를 기반으로 분석과제를 수행하기 위해 필요한 기준등을 담아 만든 계획 - 분석 문제 정의
    • 하향식 접근 : 문제가 먼저 주어지고 이에 대한 해법을 찾아감
      • 수렴(Converge) 단계 : 도출된 옵션을 분석하고 검증
    • 상향식 접근 : 문제 정의가 어려운 경우, 데이터 기반으로 문제의 재정의 및 해결방안을 탐색
      • 발산(Diverge) 단계 : 가능한 옵션을 도출 - 분석방법론 :
    • KDD : 통계적인 패턴이나 지식을 탐색할 수 있는 데이터 마이닝 프로세스
      • 데이터 선택 -> 전처리 -> 변환 -> 마이닝 -> 결과평가
    • CRISP-DM : 데이터 탐색을 바탕으로 비즈니스에 맞게 마이닝을 반복적으로 실시
      • 최상위레벨, 일반화tast,세분화task,프로세스 실행의 4계층으로 나뉜다.
      • 업무이헤 -> 데이터이해 -> 준비 -> 모델링 -> 평가 -> 전개(배포)
    • SEMMA : 기술 통계 중심의 데이터 마이닝 프로세스
      • 추출 -> 탐색 -> 수정 -> 모델링 -> 평가
    • 분석방법론 계층 : 단계(데이터 분석을 수행하기 위한 절차), 테스크(각 단계별로 수행되어야 하는 세부업무), 스텝(단기간 내에 수행가능한 워크패키지)
    • 분석방법론 개발절차 : 분석기획 -> 데이터 준비 -> 데이터 분석 -> 시스템 구현 -> 평가 및 배포
    • 데이터 거버넌스 : 데이터 분석 업무를 하나의 기업문화로 정착하고 지속적으로 고도화해나간다.
      • 주요 관리 대상은 마스터데이터, 메타데이터, 데이터사전 이다.
    • 데이터 분석 수준진단 :
      • 분석 준비도 : 총 6가지 영역 대상으로 현재 수준을 파악한다.
      • 분석 성숙도 : 비즈니스 부문, 조직 및 역량 부문, IT부문 총 3개를 대상으로 실시한다.
        • 도입 -> 활용 -> 확산 -> 최적화
  2. (하) 분석 작업 계획
    • 데이터 분석 영역 : 데이터를 추출,가공한 후 분석을 수행하고 결과를 표현한다.
    • 데이터 분석 : 도메인 이슈 도출, 분석 목표 수립, 프로젝트 계획 수립, 보유 데이터 자산 확인
    • 데이터 표현 : 빅데이터 분석 결과 시각화 - 데이터 확보시 분석 변수 점검 항목 : 데이터 적정성, 가용성, 기술적 타당성 - 분석 작업 계획 절차 : 데이터 분석과제 정의 -> 데이터 준비,탐색 -> 데이터 분석 모델링 & 검증 -> 산출물 정리
  3. (하) 데이터 수집 및 전환
    • 수집, 빅데이터 ETL 기술들 -> Pass
    • 데이터 비식별화 : 개인정보를 식별할 수 있는 값들을 몇가지 정해진 규칙으로 대체하거나 가공하여 개인을 식별할 수 없게 가공
    • 적정성 평가 : 프라이버시 보호모델 중 최소한으로 k-익명성, 필요시 l-다양성, t-근접성
      • k-익명성 : 특정인 추론 가능한지 검토. 동일 값을 가진 레코드를 k개 이상
      • l-다양성 : 민감한 정보의 다양성을 높인다. 각 레코드는 l개 이상의 다양성
      • t-근접성 : 민감한 정보의 분포를 낮춘다. 전체 정보분포와 특정분포 차이을 t 이하로
  4. (하) 데이터 적재 및 저장
    • 데이터 적재, HDFS, GFS 등 -> Pass
    • CAP 이론 : 분산 컴퓨팅 환경의 특징을 일관성(Consistency), 가용성(Vailability), 지속성(Partition-Tolerance) 3가지로 정의함. 어떤 시스템이던지 이 세가지 특성을 동시에 만족하기는 힘듬.
    • 일관성(Consistency) : 분산 환경에서 모든 노드가 같은 시점에 같은 데이터를 보여준다.
    • 가용성(Availability) : 일부 노드가 다운되어도 다른 노드에 영향을 주지 않아야 한다.
    • 지속성(Partition-Tolerance) : 데이터 전송 중에 일부 데이터를 손실하더라도 시스템은 정상 동작해야 한다. - CAP에 따른 RDBMS vs RDBMS
    • RDBMS : (Consistency + Availability)
      • 트랜젝션 ACID 보장 (ex: 금융서비스)
    • NoSQL : (Consistency or Availability 중 1개) + Partition Tolerance
      • Consistency + Partition-Tolerance : 대용량 분산 파일 시스템 (ex: Bigtable, HBase)
      • Availability + Partition-Tolerance : 비동기식 서비스 (ex: Dynamo, Cassandra)

        NoSQL 의 기술적 특성 1) 스키마리스, 2) 탄력성(시스템 일부에 장애가 발생해도 시스템에 접근 가능하다) 3) 질의 가능, 4) 캐싱(대규모 질의에도 고성능 응답속도를 제공할 수 있는 메모리 기반 캐싱 기술 적용이 중요하다)

  • NoSQL 종류별 구분
    • Key-Value 데이터베이스 : 키벨류 기반으로 확장성과 질의응답시간이 뛰어나다.
      • 간단하지만 범위질의가 DB에서 지원하지 않는다면 힘들다.
      • AWS DynamoDB, Redis 와 같은 In-Memory Database
    • Column-Oriented 데이터베이스 : 데이터를 row 가 아닌 column 기반으로 저장하며, 확장성을 보장하기 위해 여러 노드로 분할 저장된다.
      • 연관된 데이터 위주로 읽는데 유리하다.
      • 하나의 레코드를 수정하려면 여러곳을 수정해야 한다.
      • 동일 도메인 값이 연속되므로 압축 효율이 좋고 범위 질의에 유리하다.
      • Google BigTable, Cassandra, HBase
    • Document 데이터베이스 : 문서 형식의 정보를 저장, 검색, 관리하기 위한 DB.
      • 문서마다 다른 스키마를 가지고 있고, 레코드간의 관계 설명이 가능하다.
      • MongoDB, CouchDB

PART2. 빅데이터 탐색 (약간의 수학)

  1. (상) 데이터 정제
    • 결측 데이터의 종류
    • MCAR(Missing Completely At Random) : 완전 무작위 결측, (결측 데이터가) 다른 변수와 아무 연관이 없는 경우.
    • MAR(Missing At Random) : 무작위 결측, (결측 데이터가) 관측된 다른 변수와 연관되어 있지만 비관측값들과는 연관없는 경우
    • NMAR(Not Missing At Random) :비 무작위 결측, 어떤 변수 데이터가 MCAR, MAR가 아닌 결측데이터로 정의. 즉 다른 변수와 연관있음

      3) 질의 가능, 4) 캐싱(대규모 질의에도 고성능 응답속도를 제공할 수 있는 메모리 기반 캐싱 기술 적용이 중요하다)

  • 데이터 이상값(Outlier) 탐지
    • 시각화(Box Plot, Scatter Plot) 를 통한 방법(비모수, 단변량)
    • Z-score(모수, 단변량)
    • DBSCAN(Density Based Spatial Clustering of Application with Noise) : 군집간의 밀도를 이용하여 특정 거리 내의 데이터 수가 지정 개수 이상이면 군집으로 정의
    • Isolation Forest : Decision Tree 기반으로 정상치의 단말노드보다 이상치의 단말노드에 이르는 길이(Path Lengh)가 더 짧은 성질을 이용한다.
  1. (상) 분석 변수 처리
    • 변수의 선택방법 :
    • 전진 선택법(Forward Selection) : 유의미한 변수를 선택해나감
    • 후진 선택법(Backward Selection) : 설명력이 떨어지는 변수를 소거해나감
    • 단계적 선택법(Stepwise Selection) : 전진선택과 후진선택을 반복하여 유의한 변수가 없을때까지 진행한다.
  • 파생 변수 생성, 학습데이터 불균형, 차원의 저주, 군집 불균형, 차원 축소, 변수 변환
  1. (중) 데이터 탐색 기초
    • 박스플롯, 산점도, 상관계수, median, 표본 추출, 왜도, 기초통계 량, 이상치
  2. (중) 고급 데이터 탐색
    • 주성분분석, 비정형데이터
  3. (중) 기술통계
    • 전수조사, 불량률, 확률 계산, 층화추출, 확률분포, 포아송분포, 중심극한정리, 군집추출, 층화추출. 카이제곱, 확률밀도함수
  4. (중) 추론통계
    • 최대우도, Z 계산, 점추정, 1종/2종 오류, 유의수준, 표본분산

PART3. 빅데이터 모델링 (모델링 알고리즘)

  1. 분석 절차 수립
    • 모델링 절차
  2. 분석 환경 구축

K-fold 검정, 데이터 분할

  1. (상) 분석 기법
    • 회귀분석(중요)
    • 로지스틱 회귀분석(중요)

변수 선택. 인공신경망, 합성곱 계층, 잔차진단, SVM, L人SSO, 로지스틱 회귀, 앙상블, 비지도학습, 지도학습분류, 군집분석, 회귀분석, 활성화함수, 의사결정나무. DNN, CNN, RNN, 초매개변수

  1. (상) 고급 분석 기법

자료 분석, 다차원 척도, 베이즈 정리, 시계열 자료, 자기상관, 비 정형 데이터 형태, 랜덤 포레스트, 비모수적 통계 검정법, 배징, 부 스팅, ARIMA

PART4. 빅데이터 결과 해석 (시각화)

  1. (상) 분석 모형 평가
    • 분류성능
    • 정확도(Accuracy) = 전체맞힘/전체 = TP + TN / TP + FP + FN + TN
    • 민감도,재현율(Sensitivity,Recall) = T맞힘/실T = TP / TP + FN
    • 특이도(Specificity) = F맞힘/실F = TN / FP + TN
    • 정밀도(Precision) = T맞힘/예T = TP / TP + FP
    • F1 Score = 2 x 정밀도 x 재현율 / 정밀도 + 재현율
  • 브앙, =산, 온吉 oe, KOU, r1 score, 식을I•노 □’8, 빈 1노, —
  1. (상)분석 모형 개선
    • 초매개변수, 모형 선택. 매개변수 최적화
  2. 분석 결과 해석
    • MAE, MAPE, 선형회귀, ROC, 지지도, 신뢰도
  3. (상) 분석 결과 시각화
    • 인포그래픽(중요)
    • 산섬도. 박대그래프, =건•엉 데이너셋, 인소그래•닉, 버%자느, 가 토그램
  4. 분석 결과 활용
    • 모델링 타입, 분석결과의 활용, 성과지
This post is licensed under CC BY 4.0 by the author.