자격증/ADsP

2과목 데이터분석기획

멍냐옹2 2023. 2. 25. 21:29
반응형

1. 분석기획

분석을 수행할 과제 정의, 관리 방안, 계획의 작업
요구 스킬 : 분석 역량, 기술 역량,도메인 전문성, 의사소통, 프로젝트 관리, 리더십

2. 분석 주제 유형 4가지

    분석대상
분석방법   O X
O 최적화 (Optimization) 통찰 (Insight)
X 솔루션(Solution) 발견(Discovery)

3. 목표 시점 별 분석 기획 방안

  과제 단위 = 단기 마스터플랜 단위 = 중장기
1차 목표 Speed & Test Accuracy & Deploy
과제의 유형 Quick - Win  Long Term View
접근 방식 Problem Solving  Problem Definition 

4. 분석 기획시 고려 사랑

가용한 데이터 : 데이터 유형분석이 선행적으로 이루어져야 함. (정형/비정형/반정형)
적절한 유스케이스 탐색 : 유사분석 시나리오 및 솔루션이 있다면 최대한 활용
장애요소들에 대한 사전 계획 수립 : 장애요소들에 대한 사전 계획 수립 필요. 충분하고 계속적인 교육 및 활용방안

5. 데이터 유형

정형 데이터 : ERP, CRM 트랜잭션 데이터, Demand Forecast 
반정형 데이터 : Competitor Pricing, Sensor, Machine Data 
비정형 데이터 : Email, SNS, voice, IoT, 보고서, news

6. 분석 방법론 개요

필요 : 데이터 분석을 기업에 효과적으로 적용하기 위해
구성요소 : 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물
방해요소 : 고정관념, 편향된 생각, 프레이밍 효과 (동일사건, 상황임에도 사람들의 선택에 따라 판단이 달라지는 현상)

7. 분석 방법론 모델 3가지

폭포수 모델 : 이전 단계 완료 후 다음 단계를 진행하는 하향식 진행. 문제점 발견시 전단계로 돌아가는 피드백 수용
나선형 모델 : 반복을 통해 점증적으로 개발
포로토타입 모델 : 요구사항이나 데이터를 정확하게 규정하기 어렵고 데이터 소스도 파악하기 어려운 상황에서 사용하는 상향식 접근 방법

8. KDD 분석 방법론

데이터베이스에서 의미있는 지식을 탐색하는 데이터 마이닝 프로세스
분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 설정
 
데이터셋 선택
데이터 전처리 : 데이터셋에 포함되어 있는 잡음, 이상값, 결측치를 식별하고 필요시 제거
데이터 변환 : 분석 목적에 맞는 변수 선택, 데이터 차원 축소
데이터 마이닝 : 데이터의 패턴을 찾거나 분류 또는 예측
데이터 마이닝 결과 평가

9. CRISP-DM 분석 방법론

단계간 피드백을 통해 완성도를 높이게 구성 됨
피드백 단계 : 업무 이해 <-> 데이터 이해, 데이터 준비 <-> 모델링
위대한 실패 : 평가 -> 업무 이해
 
업무 이해 : 업무 목적 파악 -> 상황 파악 -> 데이터 마이닝 목표설정 -> 프로젝트 계획 수립
데이터 이해 : 데이터 수집, 데이터 탐색, 데이터 품질확인 = KDD의 데이터셋 선택
데이터 준비 : 데이터셋을 편성하는 단계 = KDD의 데이터 전처리 = KDD의 데이터 변환
모델링 : 다양한 모델링 기법과 알고리즘 선택, 파라미터 최적화. 데이터 분석 방법론, 머신러닝을 이용한 수행모델 생성 및 데이터 분할. 모델링 기법 선택, 모델링 작성, 모델 평가
평가 : 프로젝트의 목적에 부합하는지 평가. 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
전개 : 실제 업무에 적용하기 위한 계획 수립

10.빅데이터 분석 방법론

분석 기획
-  비즈니스 이해 및 범위 설정 : SoW 작성
- 프로젝트 정의 및 계획 수립 : 모델 이미지 및 평가 기준. WBS 작성
- 프로젝트 위험 계획 수립 : 위험에 대한 대응 방법 : 회피, 전이, 완화, 수
데이터 준비
- 필요 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 정합성 점검
데이터 분석
- 데이터 준비 <-> 데이터 분석은 반복적인 피드백 수행
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석 : 분포 비교, 결측치/이상치 확인. 특이점, 의미있는 사실 도출. 데이터 탐색 보고서, 데이터 시각화 보고서 
- 모델링 : 데이터 분할, 데이터 모델링, 모델 적용 및 운영 방안
- 모델 평가 및 검증
시스템 구현 : 시스템 및 아키텍처 설계, 사용자 인터페이스 설계, 구축, 시스템 테스트 및 운영 (유닛, 통합, 시스템 테스트)
평가 및 전개 : 모델 생명주기 설정, 주기적인 평가, 유지보수, 발전계획 수립, 평가 보고

11.분석 과제 도출 방법

하향식 접근 방법 : 문제가 확실한 경우 사용
상향식 접근 방법 : 문제의 정의 자체가 어려운 경우
디자인 사고 : 중요한 의사결정시 상향식(발산)과 하향식(수렴)을 반복적으로 사용

12. 하향식 접근 방식

문제 탐색 
- 비즈니스 모델 기반 문제 탐색 : 비즈니스 모델 캔버스를 활용하여 문제 누락없이 도출. 업무, 제품, 고객 단위로 문제 발굴. 지원인프라, 규제와 감사영역에 대한 기회를 추가로 도출
- 5가지 영역 : 업무, 제품, 고객, 지원인프라, 규제와 감사 
- 외부 참조 모델 기반 문제 탐색 : 유사/동정 사례 벤치마킹
- 분석 유즈 케이스
- 분석 기회 발굴의 범위 확장 : STEEP(사회, 기술, 경제, 환경, 정치), 대체재, 경쟁자, 신규진입자
문제 정의 : 
- 문제 탐색 단계 
- 문제 정의 단계 : 데이터 및 기법을 정의하기 위한 데이터 분석 문제로 변환
해결방안 탐색 : 데이터 및 분석 시스템에 따라 소요되는 예산 및 활용 가능 도구가 다름
타당성 검토 : 경제적 타당도, 데이터 및 기술적 타당

13. 상향식 접근 방식

비지도 학습 : 입력만 제시되고 결과 값이 제시되지 않은 데이터로 진행하는 학습. 군집, 연관 분석
프로세스 분류 -> 프로세스 흐름 분석 -> 분석요건 식별 -> 분석요건 정의

14. 분석 프로젝트의 특징

분석프로젝트는 범위, 일정, 품질, 리스크, 의사소통 등 영역별 관리가 수행.
주요 특성 : Data Size, Data Complexity, Speed, Analytic Complexity, Accuacy & Precision

16. 분석 프로젝트의 특성 관리

Data Size : 분석하고자 하는 데이터 양 고려
Data Complexity : 데이터가 잘 적용될 수 있는 분석 모델 선정
Speed : 분석모델의 성능, 속도를 고려한 개발 및 테스트가 수행 되어야 함.
Analytic Complexity : 정확도와 복잡도는 트레이드 오프 관계. 복잡할수록 정확도는 올라가지만 해석이 어려워 짐
Accuracy & Precision : Accuarcy : 활용적 측면, Precision : 안정성 측면. 트레이드 오프 관계

17. 10개 주제별 프로젝트 관리 체계

시간 : 프로젝트 활동의 일정 수립, 일정 통제 진척 상황 관찰
범위 : 작업과 인도물 식별, 정의
품질 : 품질보증과 품질통제를 계획하고 확립
통합 : 프로세스를 도출, 정의, 결합, 단일화, 조정, 통제, 종료에 필요
이해관계자 : 스폰서, 고객사, 기타 이해관계자 식별, 관리에 필요한 프로세스
자원 : 인력, 시설, 장비, 자재, 기반 시설, 도구와 같은 적절한 프로젝트 자원을 식별 및 확보
원가 : 개발 예산과 원가통제의 진척 상황 관찰
리스크 : 위험과 기회를 식별하고 관리
조달 : 계획에 요구된 프로세스를 포함, 제품 및 서비스 또는 인도물을 인수하여 공급자와의 관계 관리
의사소통 : 프로젝트에 관련된 정보를 계획, 관리, 배포

18. 분석 마스터 플랜 & ISP

분석 마스터 플랜 : 데이터 분석과제를 빠짐없이 도출한 후 과제의 우선순위를 결정하고 단기 및 중/장기로 계획 수립
데이터수집 및 확보와 분석 데이터를 준비하는 단계를 순차적으로 진행하고, 모델링 단계에는 반복적으로 수행하는 혼합형을 많이 적용
 
ISP (Information Strategy Planning, 정보 전략 계획) : 조직 내/외부 환경을 분석하여 기회 및 문제점을 도출하고 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 중장기 마스터 플랜을 수립

19. 분석 마스터 플랜 수립

분석 과제 수행의 선 / 후행 관계를 고려하여 우선순위 조
분석 과제 
우선순위 고려 요소 : 전략적 중요도, ROI(투자자본수익률), 실행 용이서
적용 우선순위 결정
적용 범위 / 방식 고려 요소 : 업무 내재화 적용 수준, 분석 데이터 적용 수준, 기술 적용 수준
분석 구현 로드맵 수립
 

20. 포토폴리오 사분면을 통한 과제 우선순위 선정

  시급성
현재 미래
난이도 어려움 1 2
쉬움 3 4

3사분면 : 일반적으로 먼저 시행
우선 순위 = 시급성 : 3 -> 4 -> 2 
우선 순위 = 난이도 : 3 -> 1 -> 2
시급성이 높고, 난이도가 높은 1사분면은 경영진, 실무담당자의 의사결정에 따라 우선순위 조정 가능

21. 이행계획 수립

로드맵 수립 : 우선순위를 토대로 분석 과제별 적용 범위 및 방식을 고려하여 우선순위 결정 후 로드맵 수립
세부 이행계획 수립 : 프로젝트 완성도를 높이는 방식 

22. 분석 거버넌스 체계

거버넌스 : 기업, 비영리 기관 등에서 규칙, 규범 및 행동이 구조화, 유지, 규제되고 책임을 지는 방식 및 프로세스
분석 거버넌스 체계 구성 요소 (POSHD, 분석 비용 및 예산 없음)
Process : 과제 기획/운영 프로세스
Organization : 분석 기획/관리 및 추진 조직
System : 분석 관련 IT 기술/프로그램
Human Resource : 분석 관련 교육
Data : 데이터 거버넌스

23. 데이터 거버넌스

전사차원의 데이터 관리 체계를 구축하는 것
데이터가 적시에 필요한 사람에게 제공되도록 체계를 확립
데이터 거버넌스 구성 요소: 원칙, 조직, 프로세스

24.데이터 분석 수준 진단

분석 준비도 : 분석 업무 파악, 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, IT인프라
분석 성숙도 : 비즈니스 부문, 조직/역량 부문, IT부문을 대상으로 성숙도 수준에 따라 도입, 활용, 확산, 최적화 단계로 구분하여 검토
능력 성숙도 통합 모델 = CMMI : 소프트웨어 개발 및 전산장비 운영 업체들의 업무 능력 및 조직의 성숙도를 평가하기 위한 모델
소프트웨어 프로세스 성숙도 레벨 5단계
Initial - Managed - Defined - Quantitatively Managed - Optimizing

25.분석 준비도

분석 업무 파악 : 예측 분석 업무, 시뮬레이션 분석 업무, 최적화 분석 업무, 발생 사실 분석 업무, 분석 업무 정기적 개선
인력 및 조직 : 분석 전문가 직무, 교육 훈련
분석 기법 : 분석 기법 라이브러리
분석 데이터 :  데이터 충분성 및 신뢰성, 적시성, 기준 데이터 관리
분석 문화 : 사실에 근거한 의사 결정
IT인프라 : 운영 시스템 통합

26.분석 성숙도 모델

도입 -> 활용 -> 확산 -> 최적화

27. 분석 수준 진단 결과

확산형 : 높은 성숙도, 높은 준비도
정착형 : 높은 성숙도, 낮은 준비도
준비형 : 낮은 성숙도, 낮은 준비도
도입형 : 낮은 성숙도, 높은 준비도

28.데이터 거버넌스 체계 수립

데이터 거버넌스 체계요소
데이터 표준화 : 데이터 표준용어 설정, 명명규칙 수립, 메타 데이터 구축, 데이터 사전 구축
데이터 관리체계 : 메타데이터, 데이터 사전의 관리 원칙 수립
데이터 저장소 관리 : 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소 구성
표준화 활동 : 표준 준수 여부를 주기적으로 점검, 모니터링
데이터 거버넌스의 데이터 저장소 관리 : 데이터 구조 변경에 따른 사전영향평가도 수행되어야 효율적인 활용 가능

29.데이터 분석을 위한 조직 구조

집중형 조직 구조 : 독립적인 분석 전담 조직 구성. 이원화 가능성
기능 중심 조직 구조 : 각 해당 업무 부서에서 직접 분석. 전사적 관점에서의 핵심 분석이 어려우
분산 조직 구조 : 분석 조직의 인력들이 협업부서에 배치되어 업무 수행 

30.분석 과제 관리 프로세스, 분석 교육 및 변화관리

과제 발굴 : 분석 아이디어 발굴 - 분석 과제 후보 제안 - 분석 과제 확장
과제 수행 : 팀 구성 - 분석 과제 실행 - 분석 과제 진행 관리 - 결과 공유 / 개선
분석 교육 및 변화 관리 : 데이터 분석가가 담당했던 일 -> 모든 구성원이 데이터를 분석하고 업무에 적용

31.빅데이터 거버넌스 특징

분석 대상 및 목적을 명확히 정의, 데이터 수명주기 관리방안 수립
산업 분야, 데이터 유형, 정보 거버넌스 요솝별로 구분하여 작성
조직 및 인력에 대한 지속적인 교육과 훈련 실시
개인정보보호 및 보안 대책 마련

32.관련 용어

Servitization : 제조업과 서비스업의 융함
CoE : 조직 내 분석 전문조직
ISP : 전사적인 종합추진 계획
Sandbox : 외부 접근 및 영향 차단

반응형

'자격증 > ADsP' 카테고리의 다른 글

3과목 데이터 분석  (0) 2023.02.27
1과목 데이터 이해  (0) 2023.02.22