데이터의 수집
- 1930년 이후부터 발전 시작
- 1단계 : 연필, 노트, 수동적 수집
- 2단계 : 휴대폰같이 손으로 들고 다닐 수 있는 컴퓨터를 이용해 자동 수집
- 3단계 : 데이터 자동, 실시간 갱신 및 수집 (자동화) -> 오늘날 "데이터의 시대".
1937년 데이터 분석 사례 : 'Mass Observation'
- 수염, 눈썹, 제스처 등 일상 모습에 관한 데이터를 수집하여 국가의 문화를 이해하는데 활용
- https://en.wikipedia.org/wiki/Mass-Observation
데이터화, Datafication
- 삶의 모든 측면을 포착해 그것을 데이터로 바꾸는 과정
- 대상을 데이터화하여 다양하게 활용 및 새로운 가치로 변환할 수 있다.
데이터분석
- 데이터를 통계 및 계량적 측면에서 분석하고, 분석 결과로 나온 설명 모델과 예측 모델을 활용하는 것.
모집단과 표본
- 데이터가 폭증하는 시대에 목적에 따라 적절한 데이터를 선정해야 될 필요가 있음.
- 데이터 분석의 결과는 항상 어떤 집단을 대상으로 한 것인지를 확인해야 하며, 일반화하는 것을 경계해야 함.
추출 단위 |
sampling unit |
모집단을 구성하는 각 개체 |
특성값 |
Characteristic value |
각 추출 단위의 특성을 나타내는 값. (ex. 키, 수확량) |
모집단 |
population |
통계적 분석의 대상이 되는 조사대상의 전부 (ex. 서울 시민 전체) |
표본 |
sample |
통계적 분석을 위해 선택된 모집단의 일부 |
통계적 추론
- 데이터 불확실성(data uncertainty) : 데이터의 신뢰도
- 데이터 무작위성(data randomness) : 데이터의 신뢰도를 갖추기 위해, 한쪽으로 치우치지 않고 무작위하게 데이터를 수집해야 함. (참고)
- 데이터를 분석한 결과를 현실 세계에 유용한 정보로 변환하는, 통계 및 수학을 기반으로 한 과정을 통계적 추론이라 함.
표본추출법
1) 단순 랜덤 추출법 (Simple Random Sampling)
- 모집단의 각 추출 단위가 표본으로 선택될 확률이 같은 방식
- 단순 랜덤 비복원 추출 : 단순 개체 중복 추출 불가
- 단순 랜덤 복원 추출 : 단순 개체 중복 추출 가능
2) 층화 추출법 (Stratified Sampling)
- 모집단을 몇 개의 층으로 분류한 뒤, 각 층에서 표본을 랜덤하게 추출
- ex) 성별, 학년별
3) 집락 추출법 (Cluster Sampling)
- 단위를 축소해 추출
- 추출 작업이 편리하고 비용 절감
- ex) 서울시의 400개 동 중 50개의 동만 선택하여 데이터 수집
4) 계통 추출법 (Systematic Sampling)
- 단순 개체를 무작위로 나열한 뒤, 구간을 나누고, 각 구간에서 하나를 임의로 선택.
자료의 종류
1) 질적자료 (Quailtative data)
- 명목 척도(nominal scale) : 측정 대상이 어느 집단에 속하는 가(성별, 출생지 구분 등)
- 순서 척도(ordinal scale) : 측정 대상이 어느 정도의 수준을 가지는가(선호도 조사 등 - 아주 좋아한다, 그저그렇다, 싫어한다)
2) 양적자료 (Quantitative data)
- 구간 척도(interval scale) : 절대적 기준인 0값이 없고 측정 대상이 갖고 있는 속성의 양 (온도, 지수 등)
- 비율 척도(ratio scale) : 절대적 기준인 0값이 존재하며 사칙연산이 가능한 속성의 수치 (무게, 나이, 소득 등)
위치 측도와 산포 측도
위치측도(location parameters) : 특성 값들의 대략적인 크기
- 표본평균(sample mean) : 데이터의 합계를 데이터 총 개수로 나눈 값 $$ \bar{x}=\cfrac{x_1+x_2+\cdot\cdot\cdot+x_n}{n} $$
- 중앙값(median) : 데이터를 크기 순서로 나열할 때 가장 중앙에 위치하게 되는 데이터 값
- 분위수(quantile) : 정렬된 데이터를 균등하게 q개로 나눈 값(ex 4-quantiles는 사분위수)
- 백분위수(percentile) : 특정 값 이하의 데이터가 전체의 p%임을 의미 (Q1 : 25 percentile)
산포측도(scale parameters) : 특성 값들 간의 거리(얼마나 퍼져있는가)
- 표본분산(sample variance) : 데이터의 값이 평균으로 부터 떨어져 있는 정도를 나타내는 값$$ s^2 = \frac{1}{n-1}\textstyle\sum_{i=1}^n(x_i-\bar{x})^2 $$
- 표본 표준편차(sample deviation) : 데이터가 얼마나 퍼져있는가를 나타내는 값 $$ \sigma = \sqrt{s^2} $$
- 평균 절대 편차 (mean absolute deviation) : 데이터가 얼마나 퍼져있는가를 나타내는 값 $$ \frac{1}{n}\textstyle\sum_{i=1}^n|x_i - Q_2| $$
- 사분위수 범위(interquartile range) : 데이터의 Q3(4분위 중 3번째)값과 Q1(4분위 중 첫번째)값의 차이 $$ Q_3 - Q_1 $$
상관계수 (Correlation Coefficient)
- 두 변수 간에 선형관계가 존재하는 가를 나타내는 측도
- 인과관계를 나타내는 것은 아님을 주의
- 상관계수 공식 : $$ \rho = \frac{cov(X,Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}} $$
- 상관계수는 -1 ~ 1 까지의 값을 갖는다
- 절대값이 0에 가까울수록 선형관계가 없고, 1에 가까울 수록 선형관계가 있다는 것을 의미
왜도와 첨도
- 데이터의 분포 형태에 따라 다른 방법론을 적용해야 함
- 정규 분포 여부 판단 가능
왜도(Skewness) : 중심을 기준으로 한 쪽으로 치우친 정도
- 왜도 = 0, 좌우대칭
- 왜도 > 0, 긍정적 비대칭(positive skew) - 오른쪽 치우침
- 왜도 < 0, 부장적 비대칭(negatice skew) - 왼쪽 치우침
첨도(Kurtosis) : 분포의 형태가 정점위치에서 뾰족한 정도
- 첨도 = 0, 정상분포 - 표준정규분포와 동일
- 첨도 > 0, 첨용(Leptokurtic) - 표준정규분포보다 뾰족
- 첨도 < 0, 평용(platykurtic) - 표준정규분포보다 납작
반응형