Hodustory/프로그래밍&DB 118

[R programming 기초] R과 기초 통계

기본 함수 수학함수 함수 설명 abs(x) 절대값 sqrt(x) 제곱근 ceiling(x) x보다 작지 않은, x와 가장 가까운 정수 ceiling(3.475) = 4 floor(x) x보다 크지 않은, x와 가장 가까운 정수 floor(3,475) = 3 trunc(x) 내림. trunc(4.78) = 4 round(x, digits=n) 소숫점 n자리수까지 반올림. round(3.475, digits=2) = 3.48 cos(x), sin(x), tan(x) 삼각함수 log(x) 자연 로그 log10(x) 상용 로그 exp(x) e^x factorial(x) 팩토리얼 확률함수 특정 분포로 부터 난수를 발생시켜 이를 확률 표본으로 생성 확률함수의 종류 d : 확률밀도함수 p : 누적확률 q : 4분위수..

[R programming 기초] R의 그래프 기초 (plot)

R그래프 살펴보기 아래의 구분을 입력한 뒤 엔터키를 눌러 R에서 제공하는 다양한 형태의 그래프를 살펴보세요 > demo(graphics); > demo(persp) Plot 함수 지정하는 object들을 도표상에 표시하는 함수 > attach(mtcars) # 데이터 mtcars에 대한 함수구문 시작 > plot(wt,mpg) # x축 wt, y축 mpg로 하여 점 그래프 생성 > abline(lm(mpg~wt)) #mpg와 wt 사이의 상관관계(회귀분석) 선 그리기 > title("regression of MPG on Weight") #그래프 제목 넣기 plot 함수의 옵션 파라미터 option 설명 type = 그래프의 형태를 지정 type='p' : 점(point) 그래프 type='l' : 선(l..

[R programming 기초] R 기초 연산자

이항 연산자(Binary operators) vector, matrix 및 scalar 모두에 적용 연산자 설명 + 더하기 - 빼기 * 곱하기 / 나누기 ^ or ** 제곱 x %% y 나머지 x %/% y 나누기 몫의 정수 부분 논리 연산자 연산자 설명 = greater than or equal to == exactly equal to != not equal to !x Not X x | y x OR y x & y X AND y isTRUE(x) test if X is TRUE 문자함수 연산자 설명 substr(x, start= n1, stop = n2) 문자 vector에서 특정 문자열 자르기 혹은 수정 grep(pattern, x, ignore.case=FALSE, fixed=FALSE) 정규식 패턴..

[R programming 기초] R에서의 데이터관리2 - 배열(matrix, array, list)

1차원 배열의 계산 (Vector 연산) 1차원 배열 각 배열은 vector로 지정하고 연산이 가능 곱셈 %*% 덧셈 + 배열 합치기 cbind(), rbind() 역배열, library(MASS)를 부른 후 ginv() 전치배열(행렬 바꾸기) : t() 2차원 배열 (Matrix) row와 column을 가지는 vector 각 column은 같은 mode(숫자 또는 문자 등)의 데이터 각 column내 수록된 항목의 갯수는 일정 생성 시 미리 크기를 지정할 것(nrow=,ncol=) 일반형 Matrix 만들기 mymatrix y y [,1] [,2] [,3] [,4] [1,] 1 6 11 16 [2,] 2 7 12 17 [3,] 3 8 13 18 [4,] 4 9 14 19 [5,] 5 10 15 20 ..

[R programming 기초] R에서의 데이터관리1 - 데이터 입출력, 데이터 형식

데이터 입출력 할당(Assignment) 변수에 해당해당하는 값을 배정하는 것 R에서는 =, attach(women) > mydata$sum detach(mydata) > mydata height weight sum 1 58 115 173 2 59 117 176 3 60 120 180 4 61 123 184 5 62 126 188 6 63 129 192 7 64 132 196 8 65 135 200 9 66 139 205 10 67 142 209 11 68 146 214 12 69 150 219 13 70 154 224 14 71 159 230 15 72 164 236 > mydata$sum1 mydata height weight sum sum1 1 58 115 173 173 2 59 117 176 17..

[R programming 기초]R의 설치와 사용자 환경

R 설치하기 R공식 홈페이지 : https://cran.r-project.org/ 윈도우 환경에 맞는 R 다운로드 경로 : https://cran.r-project.org/bin/windows/base/R-3.6.1-win.exe GUI R 메뉴 이용 등 그래픽 환경을 제공하는 R 구동 프로그램 R studio, R commander 등 R studio 다운로드 : https://www.rstudio.com/products/rstudio/download/#download 기본적인 R 기능 사용하기 더하기 ------------------ > 1+2 [1] 3 ------------------- 랜덤 숫자 10개 불러오기 -------------------- > rnorm(10) [1] 1.2518240 ..

데이터의 탐색 - 결측치와 이상치

1. 종속변수와 독립변수를 선정한다. 2. 정략적 데이터인지, 정성적 데이터인지를 파악한다. 변수의 유형 Character : 문자형 Numeric : 숫자형 Factor : 범주형 Integer : 정수형 분석 가능한 데이터인지를 확인하기 위한 항목 1. 변수의 유형 확인 2. 표준화의 필요성 3. 변수의 선택 4. 데이터의 양 확인 데이터의 표준화 신뢰성 있는 결과를 얻기 위해 표준화가 필요한 경우 다변량 데이터의 경우, 변수의 단위가 서로 다를 수 있음 Z-score = (X-mean(X))/sd(X) 3. 결측치와 이상치 처리 결측치 비율에 따른 변수 제거 결측치가 10%이하인 경우 : 해당 표본을 제거하거나 imputation 결측치가 20%이상인 경우 : 해당 변수 제거 or imputatio..

[데이터분석 공부6일차] 모분산을 이용한 가설검정

모분산 모집단의 흩어져있는 정도를 나타내는 양 점추정 $$\hat{\sigma}^2 = S^2 = \textstyle\sum_{1=1}^2(X_i-\bar{X})^2/(n-1)$$ $$\hat{\sigma}^2 = \sqrt{S^2} = S$$ 구간추정 정규모집단 $$ N(\mu, \sigma^2)$$의 분산 $$ \sigma^2$$에 대한 구간 추정은 다음과 같은 통계량에 기초한다. $$(n-1)S^2/\sigma^2~x^2(n-1)$$ 분산에 대한 100(1-α)%의 신뢰구간 $${\frac{(n-1)S^2}{X^2_{{a/2}^{(n-1)}}},\frac{(n-1)S^2}{X^2_{1-\frac{a}{2}^{(n-1)}}}}$$ 신뢰구간의 예 어느 공정에서 생산되는 강철판 두께의 산포는 어느 정도는..

[데이터분석공부 5일차] 모평균에 대한 추론(가설 검정)

모평균에 관한 추론 점추정 : 모집단의 확률분포가 정확하게 알려진 경우, 표본평균을 이용해 모평균을 추정 구간추정 : 모집단의 특성에 따른 표본평균의 분포를 이용하여 신뢰구간을 추정 신뢰구간 추정 모평균의 100(1-α)%의 신뢰구간 모집단이 분산이 알려진 정규분포를 따를 경우-표본분포를 이용 $$\bar{X} - z_{\frac{a}{2}}\cdot\frac{\sigma}{\sqrt{n}},\enspace \bar{X} + z_{\frac{a}{2}}\cdot\frac{\sigma}{\sqrt{n}} $$ 모집단의 분산이 알려졌으나 정규분포를 따르지 않을 경우(n이 충분히 클 때) - 중심극한정리를 이용 $$\bar{X} - z_{\frac{a}{2}}\cdot\frac{\sigma}{\sqrt{n}}..

[데이터분석 공부 4일차] 통계적 추론

추정(estimation) 전수조사가 불가능하거나 비실용적인 경우에 실행 대상 모집단으로부터 표본을 추출하고 이러한 표본을 근거로 확률론을 활용하여 모집단의 모수들에 대해 통계적으로 추론하는 것 점추정 표본 정보로부터 모집단의 모수를 하나의 값으로 추정하는 것 (표본 평균, 표본 분산 등) 모수 추정량 모 평균 $$\mu$$ 표본 평균 $$\bar{X}$$ 모 분산 $$\sigma^2$$ 표본 분산 $$S^2$$ 묘 표준편차 $$\sigma$$ 표본 표준편차 $$S$$ 모 비율 $$p$$ 표본 비율 $$\hat{p}$$ 구간 추정 모수의 참값이 포함되어 있다고 추정되는 구간을 결정하는 것 (신뢰구간) 모 평균에 대한 신뢰구간 : 표본 평균의 분포를 이용해 추정 $$(\bar{X}-z_{\frac{a}{2..

반응형