필기 시험 준비
- 시험난이도 : 중
- 준비시간 : 약 10일 (평일 2시간, 주말 4시간)
PART1 요약. 빅데이터 분석 기획 (기본개념)
- (상) 빅데이터 개요 및 활용
- 가트너 3V : Volume(규모), Variety(다양성), Velocity(속도), +Veracity(품질), +Value(가치)
- 빅데이터 활용 3요소 : 자원(빅데이터), 기술(빅데이터플랫폼,AI), 인력(알고리즈미스트,데이터사이언티스트)
- 정보의 특징 : 정확성, 적시성, 적당성, 관련성 (일관성은 아님;;)
- 지식창조 메커니즘 단계 : 공통화(인식 공유하여 암묵지로) - 표출화(암묵지가 구체화되어 형식지로) - 연결화(형식지를 재분류하여 체계화) - 내면화(전달받은 형식지를 개인의 것으로)
암묵지) 학습과 경험을 통하여 개인에게 체화되어 있지만 겉으로 드러나지 않은 지식
형식지) 명시적으로 알 수 없는 형태. 형식을 갖추어 표현되고 공유가 가능한 지식
- DW 구성요소 : 데이터 모델, ETL, ODS(다양한 DBMS 통합관리), Meta-Data, OLAP, 데이터마이닝, 분석TOOL & 경영기반 솔루션(BI)
데이터 웨어하우스 특징 : 주제지향성(Subject-Orientation), 통합성(Integration), 시계열성(Time-variant), 비휘발성(Non-volatilzation)
- 조직의 구성 : 집중형(전사분석업무를 별도의 전담조직-DSCoE에서 수행), 기능형(각 부서에서 분석업무를 직접 수행), 분산형(분석 전문 인력-DSCoE 을 현업 부서에 배치하여 분석업무 수행)
DSCoE : Data Science Center of Excellence - 분석전담조직
- (상) 빅데이터 기술 및 제도
- 빅데이터 플랫폼 기능 : 컴퓨팅부하 ->(클러스터 자원할당), 저장부하 -> (메모리파일시스템), 네트워크부하 -> (최단거리노드탐색,대역폭분배)
- 빅데이터 3계층 : 소프트웨어 계층(데이터 수집정제처리 등), 플랫폼 계층(작업스케줄링,자원할당), 인프라스트럭처 계층(스토리지관리,네트워크 배치 & 관리)
- 빅데이터 처리과정 : 데이터생성 -> 수집(crawling,로그,sensor,openapi,ETL) -> 저장(NoSQL,HDFS,S3,NAS등) -> 처리(HADOOP,SPARK,MapReduce) -> 분석(분규,군집화,머신러닝,데이터마이닝,감정분석 등) -> 시각화
1) RDBMS 트랜젝션 속성 : 원자성(Atomicity), 일관성(Consistency), 독립성(Isolation), 지속성(Durability)
2) MapReduce 단계 : Split -> Map -> Shuffle -> Reduce
3) 분석 분류 : 탐구요인분석(EFA: 데이터간 상호관계), 확인요인분석(CFA: 변수들의 집합요소 구조파악)
- 머신러닝 분류
- 지도학습(Supervised Learning) : 분류, 회귀
- 비지도학습(Unsupervised Learning) : 군집, 오토인코더(라벨이 설정되어 있지 않은 학습데이터로부터 효율적인 코드로 표현) -> 이상징후탐지, 노이즈제거, GAN(생성적 적대 신경망) -> 생성자는 가짜 사례를 생성, 감별자는 진위 판별하는 식으로 공방반복
- 준지도학습(Semi-supervised Learning)
- 강화학습(Reinforcement Learning) : 강화학습
- 데이터 3법
- 개인정보보호법/일반법 : 당사자의 동의 없이 개진정보의 수집,활용을 금지 -> 개인정보를 구체적으로 개인정보, 가명정보(도압), 익명정보로 구분
- 정보통신망법/특별법-우선적용(정보통신망 이용 촉진 및 정보보호 등에 관한 법률) : 이용자의 동의 필요, 개인정보 위탁 시 동의 필요. -> 개인정보 관련 사항을 개인정보 보호법으로 이관
- 신용정보보호법(신용정보의 이용 및 보호에 관한 법률) : 개인신용정보를 타 회사등에 제공하고자 하는 경우에는 서명 및 동의가 필요하다. -> 가명정보는 신용정보 주체의 동의없이 이용가능하다
- GDPR : 유럽의회에서 유럽 시민들의 개인정보보호 강화를 위해 만든 규정
- 비식별화 : 개인을 식별할 수 있는 요소를 전부 삭제하거나 대체하여 개인식별 불가하도록 만듬
- 사전검토 -> 비식별조치 -> 적정성평가 -> 사후관리
- (상) 분석 방안 수립
- 데이터 분석 기획 : 실제 분석을 시행하기에 앞서 분석을 수행할 과제의 정의 및 방안을 사전에 계획
- 분석 기획의 절차 : 비즈니스 이해범위 설정 -> 프로젝트 정의 -> 수행계획 수립 -> 위험계획 수립
- 목표 시점에 따라 : 단기적접근방식(과제중심적 접근), 중장기적접근방식(마스터플랜 접근), 혼합방식(분석기획시)
- 마스터플랜 : 전체적인 방향성을 제시하는 기본계획
- 분석로드맵 : 마스터플랜에서 정의한 목표를 기반으로 분석과제를 수행하기 위해 필요한 기준등을 담아 만든 계획 - 분석 문제 정의
- 하향식 접근 : 문제가 먼저 주어지고 이에 대한 해법을 찾아감
- 수렴(Converge) 단계 : 도출된 옵션을 분석하고 검증
- 상향식 접근 : 문제 정의가 어려운 경우, 데이터 기반으로 문제의 재정의 및 해결방안을 탐색
- 발산(Diverge) 단계 : 가능한 옵션을 도출 - 분석방법론 :
- KDD : 통계적인 패턴이나 지식을 탐색할 수 있는 데이터 마이닝 프로세스
- 데이터 선택 -> 전처리 -> 변환 -> 마이닝 -> 결과평가
- CRISP-DM : 데이터 탐색을 바탕으로 비즈니스에 맞게 마이닝을 반복적으로 실시
- 최상위레벨, 일반화tast,세분화task,프로세스 실행의 4계층으로 나뉜다.
- 업무이헤 -> 데이터이해 -> 준비 -> 모델링 -> 평가 -> 전개(배포)
- SEMMA : 기술 통계 중심의 데이터 마이닝 프로세스
- 추출 -> 탐색 -> 수정 -> 모델링 -> 평가
- 분석방법론 계층 : 단계(데이터 분석을 수행하기 위한 절차), 테스크(각 단계별로 수행되어야 하는 세부업무), 스텝(단기간 내에 수행가능한 워크패키지)
- 분석방법론 개발절차 : 분석기획 -> 데이터 준비 -> 데이터 분석 -> 시스템 구현 -> 평가 및 배포
- 데이터 거버넌스 : 데이터 분석 업무를 하나의 기업문화로 정착하고 지속적으로 고도화해나간다.
- 주요 관리 대상은 마스터데이터, 메타데이터, 데이터사전 이다.
- 데이터 분석 수준진단 :
- 분석 준비도 : 총 6가지 영역 대상으로 현재 수준을 파악한다.
- 분석 성숙도 : 비즈니스 부문, 조직 및 역량 부문, IT부문 총 3개를 대상으로 실시한다.
- 도입 -> 활용 -> 확산 -> 최적화
- (하) 분석 작업 계획
- 데이터 분석 영역 : 데이터를 추출,가공한 후 분석을 수행하고 결과를 표현한다.
- 데이터 분석 : 도메인 이슈 도출, 분석 목표 수립, 프로젝트 계획 수립, 보유 데이터 자산 확인
- 데이터 표현 : 빅데이터 분석 결과 시각화 - 데이터 확보시 분석 변수 점검 항목 : 데이터 적정성, 가용성, 기술적 타당성 - 분석 작업 계획 절차 : 데이터 분석과제 정의 -> 데이터 준비,탐색 -> 데이터 분석 모델링 & 검증 -> 산출물 정리
- (하) 데이터 수집 및 전환
- 수집, 빅데이터 ETL 기술들 -> Pass
- 데이터 비식별화 : 개인정보를 식별할 수 있는 값들을 몇가지 정해진 규칙으로 대체하거나 가공하여 개인을 식별할 수 없게 가공
- 적정성 평가 : 프라이버시 보호모델 중 최소한으로 k-익명성, 필요시 l-다양성, t-근접성
- k-익명성 : 특정인 추론 가능한지 검토. 동일 값을 가진 레코드를 k개 이상
- l-다양성 : 민감한 정보의 다양성을 높인다. 각 레코드는 l개 이상의 다양성
- t-근접성 : 민감한 정보의 분포를 낮춘다. 전체 정보분포와 특정분포 차이을 t 이하로
- (하) 데이터 적재 및 저장
- 데이터 적재, HDFS, GFS 등 -> Pass
- CAP 이론 : 분산 컴퓨팅 환경의 특징을 일관성(Consistency), 가용성(Vailability), 지속성(Partition-Tolerance) 3가지로 정의함. 어떤 시스템이던지 이 세가지 특성을 동시에 만족하기는 힘듬.
- 일관성(Consistency) : 분산 환경에서 모든 노드가 같은 시점에 같은 데이터를 보여준다.
- 가용성(Availability) : 일부 노드가 다운되어도 다른 노드에 영향을 주지 않아야 한다.
- 지속성(Partition-Tolerance) : 데이터 전송 중에 일부 데이터를 손실하더라도 시스템은 정상 동작해야 한다. - CAP에 따른 RDBMS vs RDBMS
- RDBMS : (Consistency + Availability)
- 트랜젝션 ACID 보장 (ex: 금융서비스)
- NoSQL : (Consistency or Availability 중 1개) + Partition Tolerance
- Consistency + Partition-Tolerance : 대용량 분산 파일 시스템 (ex: Bigtable, HBase)
- Availability + Partition-Tolerance : 비동기식 서비스 (ex: Dynamo, Cassandra)
NoSQL 의 기술적 특성 1) 스키마리스, 2) 탄력성(시스템 일부에 장애가 발생해도 시스템에 접근 가능하다) 3) 질의 가능, 4) 캐싱(대규모 질의에도 고성능 응답속도를 제공할 수 있는 메모리 기반 캐싱 기술 적용이 중요하다)
- NoSQL 종류별 구분
- Key-Value 데이터베이스 : 키벨류 기반으로 확장성과 질의응답시간이 뛰어나다.
- 간단하지만 범위질의가 DB에서 지원하지 않는다면 힘들다.
- AWS DynamoDB, Redis 와 같은 In-Memory Database
- Column-Oriented 데이터베이스 : 데이터를 row 가 아닌 column 기반으로 저장하며, 확장성을 보장하기 위해 여러 노드로 분할 저장된다.
- 연관된 데이터 위주로 읽는데 유리하다.
- 하나의 레코드를 수정하려면 여러곳을 수정해야 한다.
- 동일 도메인 값이 연속되므로 압축 효율이 좋고 범위 질의에 유리하다.
- Google BigTable, Cassandra, HBase
- Document 데이터베이스 : 문서 형식의 정보를 저장, 검색, 관리하기 위한 DB.
- 문서마다 다른 스키마를 가지고 있고, 레코드간의 관계 설명이 가능하다.
- MongoDB, CouchDB
- Key-Value 데이터베이스 : 키벨류 기반으로 확장성과 질의응답시간이 뛰어나다.
PART2. 빅데이터 탐색 (약간의 수학)
- (상) 데이터 정제
- 결측 데이터의 종류
- MCAR(Missing Completely At Random) : 완전 무작위 결측, (결측 데이터가) 다른 변수와 아무 연관이 없는 경우.
- MAR(Missing At Random) : 무작위 결측, (결측 데이터가) 관측된 다른 변수와 연관되어 있지만 비관측값들과는 연관없는 경우
- NMAR(Not Missing At Random) :비 무작위 결측, 어떤 변수 데이터가 MCAR, MAR가 아닌 결측데이터로 정의. 즉 다른 변수와 연관있음
3) 질의 가능, 4) 캐싱(대규모 질의에도 고성능 응답속도를 제공할 수 있는 메모리 기반 캐싱 기술 적용이 중요하다)
- 데이터 이상값(Outlier) 탐지
- 시각화(Box Plot, Scatter Plot) 를 통한 방법(비모수, 단변량)
- Z-score(모수, 단변량)
- DBSCAN(Density Based Spatial Clustering of Application with Noise) : 군집간의 밀도를 이용하여 특정 거리 내의 데이터 수가 지정 개수 이상이면 군집으로 정의
- Isolation Forest : Decision Tree 기반으로 정상치의 단말노드보다 이상치의 단말노드에 이르는 길이(Path Lengh)가 더 짧은 성질을 이용한다.
- (상) 분석 변수 처리
- 변수의 선택방법 :
- 전진 선택법(Forward Selection) : 유의미한 변수를 선택해나감
- 후진 선택법(Backward Selection) : 설명력이 떨어지는 변수를 소거해나감
- 단계적 선택법(Stepwise Selection) : 전진선택과 후진선택을 반복하여 유의한 변수가 없을때까지 진행한다.
- 파생 변수 생성, 학습데이터 불균형, 차원의 저주, 군집 불균형, 차원 축소, 변수 변환
- (중) 데이터 탐색 기초
- 박스플롯, 산점도, 상관계수, median, 표본 추출, 왜도, 기초통계 량, 이상치
- (중) 고급 데이터 탐색
- 주성분분석, 비정형데이터
- (중) 기술통계
- 전수조사, 불량률, 확률 계산, 층화추출, 확률분포, 포아송분포, 중심극한정리, 군집추출, 층화추출. 카이제곱, 확률밀도함수
- (중) 추론통계
- 최대우도, Z 계산, 점추정, 1종/2종 오류, 유의수준, 표본분산
PART3. 빅데이터 모델링 (모델링 알고리즘)
- 분석 절차 수립
- 모델링 절차
- 분석 환경 구축
K-fold 검정, 데이터 분할
- (상) 분석 기법
- 회귀분석(중요)
- 로지스틱 회귀분석(중요)
변수 선택. 인공신경망, 합성곱 계층, 잔차진단, SVM, L人SSO, 로지스틱 회귀, 앙상블, 비지도학습, 지도학습분류, 군집분석, 회귀분석, 활성화함수, 의사결정나무. DNN, CNN, RNN, 초매개변수
- (상) 고급 분석 기법
자료 분석, 다차원 척도, 베이즈 정리, 시계열 자료, 자기상관, 비 정형 데이터 형태, 랜덤 포레스트, 비모수적 통계 검정법, 배징, 부 스팅, ARIMA
PART4. 빅데이터 결과 해석 (시각화)
- (상) 분석 모형 평가
- 분류성능
- 정확도(Accuracy) = 전체맞힘/전체 = TP + TN / TP + FP + FN + TN
- 민감도,재현율(Sensitivity,Recall) = T맞힘/실T = TP / TP + FN
- 특이도(Specificity) = F맞힘/실F = TN / FP + TN
- 정밀도(Precision) = T맞힘/예T = TP / TP + FP
- F1 Score = 2 x 정밀도 x 재현율 / 정밀도 + 재현율
- 브앙, =산, 온吉 oe, KOU, r1 score, 식을I•노 □’8, 빈 1노, —
- (상)분석 모형 개선
- 초매개변수, 모형 선택. 매개변수 최적화
- 분석 결과 해석
- MAE, MAPE, 선형회귀, ROC, 지지도, 신뢰도
- (상) 분석 결과 시각화
- 인포그래픽(중요)
- 산섬도. 박대그래프, =건•엉 데이너셋, 인소그래•닉, 버%자느, 가 토그램
- 분석 결과 활용
- 모델링 타입, 분석결과의 활용, 성과지