자격증/ADsP

3과목 데이터 분석

멍냐옹2 2023. 2. 27. 11:50
반응형

1. R의 데이터 타입

numeric : 정수, 실수, 복소수

character : 문자. "", '' 내에 표현

logical : true = 1, false = 0

NA : 데이터 값 없음 = 결측치

NaN : 계산 불가능

복합 타입 : 데이터 프레임, 리스트

 

2. R의 데이터 구조 - matrix

matrix : 행렬, 하나의 데이터 유형만 가능 2차원형태로 구성

역행렬 : solve()

ex) matrix(... byrow = false(true로 지정시 "행" 방향으로 변경됨)

 

3. 그래프 종류

boxplot : 데이터 분포를 파악하는 도구

histogram : 많은 데이터를 갖고 있는 경우 정확한 관계 파악을 할 수 있음

 

4. 패키지 설치

install.package('패키지이름')

library('패키지이름')

library(패키지이름)

 

5. 결측치 대치법

단순 대치법

- 완전히 응답한 개체분석 : 불완전 자료는 모두 무시. 효율성 상실

- 평균 대치법 : 관측, 실험을 통해 얻어진 데이터의 평균으로 결측값 대치 (비조건 : 관측 데이터로 평균값 대치, 조건부 : 회귀분석)

- 단순확률 대치법 : 과소추정문제를 보완하고자 고안

다중 대치법 : 추정량 표준오차의 과소추정, 계산의 난해성 문제

 

6. 이상값 검색

이상값 : 의도하지 않게 잘못 입력된 경우, 분석 목적에 부합되지 않아 제거해야 하는 경우, 의도되지 않은 현상이지만 분석에 포함해야 하는 경우

이상값 판단

- ESD : 평균으로부터 3*표준편차 밖의 값

- boxplot : IQR * 1.5 밖의 값

- summary() : 평균, 중앙값, IQR보고 판단

이상값 처리 : 이상값도 분석 대상이 될 수 있어 무조건 삭제는 안 됨

 

7. 통계 분석 개요

모집단 : 데이터 전체 집합

모수 : 모집단의 특성을 나타내는 수치 ex) 평균, 분산

표본 : 모집단의 개체 수가 많아 조사가 어려울 때 모집단에서 추출 한 것

통계량 : 표본의 특성을 나타내는 수치들

 

8. 표본추출

확률적 표본추출법

- 단순 무작위추출 : 모집단의 개체가 표본으로 선택될 확률이 동일하게 추출되는 경우

- 계통추출 : 모집단에 일련번호를 부여한 후, 첫 번째 표본을 임의로 추출 하고 일정 간격으로 다음 표본 선택 ex) 1~100 번호 부여 후, 10개 선택하면 [1, 11, 21,,,,,91] 

- 층화추출 : 모집단을 겹치지 않게 몇 개의 집단 또는 층으로 나누고, 무작위로 추출 함 (층 : 성별, 나이대, 지역 등 차이 존재)

- 군집추출 : 모집단을 차이가 없는 여러개의 집단으로 나눔.ex) 경상대 경영학과 경제학과

비확률 표본 추출법은 특정 표본이 선정될 확률을 알 수 없어 통계학에서 사용 하지 않음

 

 9. 표본 추출 관련 오차

표본 오차 / 표본 추출 오차 : 모집단을 대표하지 못하는 표본을 추출하여 발생 하는 오차. 표본 오차는 표본의 크기가 커지면 작아짐.

비표본 추출 오차 : 표본 오차를 제외한 조사, 집계, 분석 과정에서 발생할 수 있는 모든 오차. 표본의 크기에 비례하여 커짐.

표본 편의 : 확률화에 의해 최소화 하거나 없앨 수 있음

 

10. 척도의 종류

명목척도 : 특성을 분류하거나 확인 ex) 성별, 혈액형, 출생지

서열척도 : 순위만 제공할 뿐 양적인 비교 불가 ex) 금,은,동메달, 선호도, 만족도

등간척도 = 구간척도 : 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교 가능. 0점 존재 하지 않음.

비율척도 : 0점이 존재하여 비율 계산이 가능. 

 

11. 집중화 경향 측정

평균(Mean) : 산술 평균

중앙값(Median) : 순서대로 위치 했을 때 중앙에 위치

최빈값(Mode) : 가장 많이 관찰되는 값

오른쪽 꼬리 긴 : 최빈값, 중앙값, 평균

왼쪽 꼬리 긴 : 평균, 중앙값, 최빈값 

 

12. 데이터의 퍼짐 정도 측정

산포도 : 흩어져 있는 정도. 산포도 크면, 멀리 흩어져 있어 변동성이 큼. 산포도 작으면 평균 주위 밀집 변동성 작아짐

편차 : 변량에서 평균을 뺀 값. 편차의 총합을 항상 0

분산

표준편차

 

13. 사건의 종류

독립 사건 : A의 발생이 B가 발생할 확률을 바꾸지 않는 사건

배반 사건 : 교집합이 공집합인 사건

종속 사건 : A와 B에서 한 사건의 결과가 다른 사건에 영향을 주는 사건

 

14. 조건부확률

P(음주|사고) = 음주사고 / 음주+비음주사고 = 0.07 / 0.13 = 0.54

 

15. 확률분포

분포 : 일정한 범위 안에 흩어져 퍼져 있는 정도 

확률변수 : 확률적으로 정해지는 변수 

확률분포 : 확률변수가 취할 수 있는 값들과 취할 확률의 대응관계

이산형 확률분포 : 이항분포, 베르누이분, 기하분포, 포아송분포 등..

연속형 확률분포 : 정규분포, 지수분포, 연속균일분포, 카이제곱분포, F분포 등..

 

16. 이산형 확률분포

베르누이 분포 : 모수가 하나이면 서로 반복되는 사건이 일어나는 실험의 반복적 실행

ex) 동전을 던져 앞면이 나올 확률 p = 1/2 q = 1/2

ex) 주사위를 던져서 4의 눈이 나올 확률 p = 1/6 q = 5/6

ex) 주사위를 던져서 4,5의 눈이 나올 확률 p = 2/6 = 1/3 q = 2/3

 

이항 분포 : 베르누이 시행을 n회 반복할 때 성공한 x의 확률분포

ex) 동전을 50번 던져서 앞면이 나올 확률은? n = 50, p = 1/2

ex) 주사위를 10번 던져서 나오는 눈이 5일 경우는? n = 10 p = 1/6

ex) 타율 3할인 타자가 100번 타석에 들어서면 안타를 몇 번 칠것인가? n = 100 p = 0.3

 

기하분포 : 베르누이 시행에서 처음 성공까지 시도한 횟수 x의 분포ex) A야구선수의 홈런 칠 확률이 5%일 때, 이 선수가 x번째 타석에서 홈런 칠 확률분포

X 1 2 3 4 5 6 ...
확률 0.05 0.0475 0.0451 0.0428 0.0407 0.0387  

 

포아송분포 : 단위 시간이나 단위 공간에서 어떤 사건이 몇 번 발생할 것인지를 표현하는 분포

ex) 어느 AS센터에 1시간당 평균 120건의 전화가 온다. 이때 1분 동안 걸려오는 전화 요청이 4건 이하일 확률은?

ex) 어느 가게에 1시간당 평균 8명의 손님이 온다. 1시간동안 손님이 10명 올 확률은?

 

17. 연속형 확률분포

정규 분포 : N(0,1)를 표준 정규 분포 = z분포

중심 극한 정리 : 표본평균 N이 충분히 크면, 정규 분포를 따르게 됨. 모집단의 분포와 상관없이 표본의 크기가 30이상이 되면 정규분포에 근사해 짐.

 

균등분포

- 이산균등분포 : 모든 곳에서 값이 일정한 분포

- 연속균등분포 : 특정 범위 내에서 균등하게 나타나 있을 경우

 

지수분포 : 사건이 서로 독립적일때, 다음 사건이 일어날때까지 대기 시간

ex) 전자 제품의 5년간 고장횟수가 평균 1회 일때, 1년안에 고장 날 확률

 

T분포 : 표본의 수가 적으면 신뢰도가 낮아짐 (30개 이하) 표본을 많이 뽑지 못하는 경우에 대한 대응책

카이제곱 분포 : 분산의 특징을 확률분포로 만든 것. 평균 0, 분산 1인 표준 정규 분포

F분포 : 분산을 다룰때 사용하는 분포. 두 집단의 분산을 다름. 분산의 크기가 서로 같은지 다른지 비교

 

사용 되는 상황?

Z분포, T분포 : 집단의 평균이 같은지를 검정

카이제곱 분포 : 한 집단의 모분산

F분포 : 두 집단의 분산 

 

18. 통계적 추론의 분류

모수적 추론 : 모집단에 특정 분포를 가정하고 모수에 대해 추론함 ex) 정규분포, 등간척도, 비율척도

- T-test : 평균 값이 올바른지, 집단 간의 평균 차이가 있는

- T test, Paired T test, ANOVA test, z분포, t분포, F분포, 카이스퀘어 분포

비모수적 추론 : 모집단에 대해 특정 분포를 가정하지 않음 ex) 표본수가 적고, 명목척도, 서열척도

- 명목척도 : 카이스퀘어 검정 (적합도 검정, 동질성 검정, 독립성 검정)

- 카이스퀘어 검정 : 한 개 범주형 변수가 상수비가 같은지 검정하는 적합도 검정, 동질성 검정, 두개 범주형 변수가 독립인지 검정하는 독립성 검정

- 서열척도 : Sign Test = 부호 검정 (두 그룹의 분포 차이가 있는가에 대한 가설 검증)

추정 : 통계량을 사용하여 모집단의 모수를 구체적으로 추측하는 과정

- 점 추정 : 하나의 값으로 모수 값 추정

- 구간 추정 : 모수를 포함할 것으로 기대되는 구간을 확률적으로 구함

가설 검정 : 가설을 세우고 옳고 그름을 확률적으로 판정

 

19. 가설 검정

귀무 가설 : 연구자가 부정하고자 하는 가설

- p-value : 귀무가설의 신뢰구간을 벗어나는 확률, 판정이 잘못되었을 확률, 제 1종 오류를 범할 확률

대립 가설 : 연구를 통해 입증/증명 되기를 기대하는 예상이나 주장. 귀무가설이 기각되면 채택되는 가설

ex) 귀무가설 : 남학생과 여학생의 평균 성적은 같다.

ex) 대립가설 : 남학생과 여학생의 평균 성적은 다르다.

1종 오류 : 귀무가설이 참인데 기각되는 오류

- 유의확률 : 1종 오류 시, 우리가 내린 판정이 잘못되었을 확

2종 오류 : 귀무가설이 거짓인데 채택하는 오류

 

20. 데이터 정규성 검정

Q-Q plot : 시각적으로 확인 

Histogram : 시각적으로 정규 분포를 확인

Shapiro Wilk test : p-value >  0.05 정규성을 가정

Kolmogorov-Smirnov test : p-value >  0.05 정규성을 가정

Anderson-Darling test

 

21. 회귀 분석

독립변수 : 다른 변수에 영향을 받지 않고 독립적으로 변화하는 수

종속변수 : 독립변수의 영향을 받아 값이 변화하는 수

종속변수가 연속형 변수일 때 가능함.

 

22. 회귀 모형

선형회귀모형 : 종속변수 y와 한 개 이상의 독립변수 X와의 선형 상관 관계를 모델링하는 회귀분석 기법

한 개의 독립변수 : 단순 선형회귀, 둘 이상의 독립변수 : 다중 선형 회귀

- 선형성 : 선형 모형

- 독립성 : 독립변수의 값이 관련되어 있지 않다.

- 정규성 : 정규분포

- 등분산성 : 동일한 분산

- 비상관성 : 상관이 없다

Normal Q-Q plot : 정규성

Scale - Location : 등분산성

Cook's Distance

 

23. 단순회귀분석 

최소자승법 : 큰 폭의 잔차에 대해 더 큰 가중치를 부여

 

24. Residuals vs Fitted

선형성 : y값 기울기가 0인 직선이 이상적,

등분산성 : 점의 위치가 전체 그래프에 고르게 분포하는 것이 이상적 

 

25. 회귀모형 해석

F통계랑, p-value : 통계적 유의성을 검정

t값, p-value

결정계수 : 70 - 90%. 회귀식의 적합

 

26. 설명 변수 선택

모든 가능한 조합 : 독립변수들의 조합에 대한 회귀모형을 고려, AIC, BIC는 작은 값이 좋음

후진제거법 : 독립변수 후보 모두를 포함한 모형에서 출발, 하나씩 제거

전진선택법 : 절편만 있는 모델에서 출발, 변수를 차례로 추가

단계별 선택법 

 

27. 과적합

주어진 샘플들의 설명변수와 종속변수의 관계를 필요이상 너무 자세하고 복잡하게 분석

Feature 개수를 줄이거나, 정규화를 수행

정규화 : 베타 값에 제약을 주어 모델에 변화를 줌

 

28. 정규화 선형

라쏘 회귀 

- L1norm. 변수 선택 가능. 선형 회귀 방법. 회귀계수의 절댓값이 클수록 패널티 부여

- w의 모든 원소가 0이 되거나 0에 가깝게 되게 해야함. 필요 특성 제거

Ridge 회귀

- L2norm을 사용. 변수 선택 불가능. 0에 가까워 지지만 0이 되지는 않음.

 

29. 데이터 스케일링

정규화 : 값의 범위를 [0,1]로 변환

표준화 : 정규분포를 갖도록 변환. 평균 0, 표준편차 1

 

30. 상관분석

상관 계수

- 두 변수의 관련성의 정도를 의미함. -1 ~ 1 값으로 나타냄

- 선형적인 크기만 측정 가능. 비선형적인 관계도 나타낼 수 있음

- cor.test()함수를 이용해 상관게수 검정을 수행하고, 유의성 검정을 판단할 수 있음

스피어만 상관계수

- 서열 척도, 비선형적인 관계 나타낼 수 있음

- 각 변수에 대해 순위를 매긴 값을 기반으로 함

피어슨 상관계수

- 등간척도, 비율척도, 선형적인 크기

 

31. 다차원 척도법 = MDS

유사성, 비유사성을 2차원, 3차원 공간상의 점으로 표현하여 군집을 시각적으로 표현

유클리드 거리와 유사도를 이용하여 측정

스트레스 값을 나타내며 0에 가까울 수록 적합도가 좋음

 

32. 주성분 분석 = PCA

공분산행렬, 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 주성분을 찾는 방법

분산을 극대화하는 변수로 축약, 분산 최대화

 

33. 공분산행렬 vs 상관계수 행렬

공분산 행렬 : 변수의 측정단위 그대로 반영. 같은 수준으로 점수화 된 경우

상관계수 행렬 : 모든 변수의 측정단위를 표준화. 서로 많이 다른 경우

 

34. 시계열 자료

시계열 자료 : 시간의 흐름에 따라 관측된 데이터

정상성 : 미래는 확률적으로 과거와 동일하다는 것

정상 시계열의 조건 : 평균은 시간에 대해 일정하다. 분산은 시간에 대해 일정하다. 공분산은 시간에 의존하지 않고, 시차에만 의존한다.

 

정상 시계열로 전환 하는 방법

- 평균이 일정하지 않은 경우 : 차분 사용

- 계절성을 갖는 비정상 시계열 : 계절 차분 사용

- 분산이 일정하지 않은 경우 : 자연로그(변환) 사용

 

차분 : 현 시점의 자료 값에서 전 시점의 자료 값을 빼 주는 것 의미함.

 

35. 시계열 모형

AR 모형 자귀회귀모형 : 자기 자신의 과거 값. 백색 잡음의 현재 값과 자기 자신의 과거 값의 선형 가중 값으로 이루어진 정상 확률 모형

MA 모형 이동평균모형 : 과거q시점 이전 오차들에서 현재항의 상태를 추론한다. 동일 가중치. 백색잡읍의 선형결합으로 표현되었기 때문에 항상 정상성을 만족함.

ARIMA 모형 자기회귀 누적 이동평균 모형 : 비정상시계열 모형 ex) ARIMA(1,2,3)이라면 2번 차분하여 ARMA 모형 

ACF : 시계열 데이터와 자기상관성 파악

PACF : 직접적 상관관계

백색잡음 : 자기상관이 전혀 없는 특별한 경우. 평균 0 분산 일정 자기공분산 0

 

36. 분해 시계열

분해 시계열 : 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법

 

분해 요인

- 추세요인 : 오르거나 내리는 형태

- 계절요인 : 고정된 주기에 따라 자료 변화

- 순환요인 : 알려지지 않은 주기를 가지고 자료 변환

- 불규칙요인 : 위 3가지 요인으로 설명할수 없는 오차

 

37. 데이터마이닝

사용가능한 데이터를 기반으로 감춰진 지식, 경향 새로운 규칙을 발견하여 의사결정에 유용하게 사용

목적 정의

데이터 준비 : 데이터 정제, 데이터 양 충분히 확보

데이터 가공 : 목적 변수 정의.

데이터 마이닝 기법 적용

검증

 

38. 데이터 마이닝 기법

분류 : 기존의 분류, 정의된 집합에 배정. 의사 결정 나무 

추정 : 알려지지 않은 결과 값 추정. 신경망 모형

연관분석 : 같이 팔리는 물건. 

예측 : 미래에 대해 예측. 장바구니, 의사결정나무, 신경망

군집 : 유사성에 의해 그룹화 이질성에 의해 세분화

기술 : 데이터가 가진 특징 및 의미 단순하게 설명

 

39. 분류 분석

로지스틱 회귀분석 : 종속변수가 범주형인 경우 적용

의사결정 나무 : 소집단으로 분류 예측 수행

 

40. 불순도 측정

지니지수 : 값이 작을수록 순수도 높음. 

 

41. 앙상블

여러개의 분류 모형에 의한 결과를 종합하여 분류의 정확도 높임

voting : 서로 다른 여러 개 알고리즘 분류기

bagging : 서로 다른 훈련 데이터 샘플로 훈련, 서로 같은 알고리즘 분류기. 병렬로 학습 결과 집계

boosting : 순차적 학습

random forest : 의사결정 나무를 사용. 과적합 해결

 

42. KNN

이웃의 개수만큼 결과 비교. 스케일링

 

43. ANN

인공신경망 이용 분류 예

 

44. SOM

차원축소와 군집화 동시 수행. 비지도 학습 저차원으로 변환해서보는데 유

 

반응형

'자격증 > ADsP' 카테고리의 다른 글

2과목 데이터분석기획  (0) 2023.02.25
1과목 데이터 이해  (0) 2023.02.22