Hodustory 224

[R programming 기초] 기초통계량 확인하기, summaryBy()

온라인 광고 클릭수 분석하기 기본 데이터 불러오기 data1 head(data1) Age Gender Impressions Clicks Signed_In 1 36 0 3 0 1 2 73 1 3 0 1 3 30 0 3 0 1 4 49 1 3 0 1 5 47 1 11 0 1 6 47 0 11 1 1 #나이 구간별로 데이터 분리(0~18, 18~24...) > data1$agecat summary(data1) Age Gender Impressions Clicks Signed_In agecat Min. : 0.00 Min. :0.000 Min. : 0.000 Min. :0.00000 Min. :0.0000 (-Inf,0]:137106 1st Qu.: 0.00 1st Qu.:0.000 1st Qu.: 3.000 ..

[R programming 기초] R과 기초 통계

기본 함수 수학함수 함수 설명 abs(x) 절대값 sqrt(x) 제곱근 ceiling(x) x보다 작지 않은, x와 가장 가까운 정수 ceiling(3.475) = 4 floor(x) x보다 크지 않은, x와 가장 가까운 정수 floor(3,475) = 3 trunc(x) 내림. trunc(4.78) = 4 round(x, digits=n) 소숫점 n자리수까지 반올림. round(3.475, digits=2) = 3.48 cos(x), sin(x), tan(x) 삼각함수 log(x) 자연 로그 log10(x) 상용 로그 exp(x) e^x factorial(x) 팩토리얼 확률함수 특정 분포로 부터 난수를 발생시켜 이를 확률 표본으로 생성 확률함수의 종류 d : 확률밀도함수 p : 누적확률 q : 4분위수..

[R programming 기초] R의 그래프 기초 (plot)

R그래프 살펴보기 아래의 구분을 입력한 뒤 엔터키를 눌러 R에서 제공하는 다양한 형태의 그래프를 살펴보세요 > demo(graphics); > demo(persp) Plot 함수 지정하는 object들을 도표상에 표시하는 함수 > attach(mtcars) # 데이터 mtcars에 대한 함수구문 시작 > plot(wt,mpg) # x축 wt, y축 mpg로 하여 점 그래프 생성 > abline(lm(mpg~wt)) #mpg와 wt 사이의 상관관계(회귀분석) 선 그리기 > title("regression of MPG on Weight") #그래프 제목 넣기 plot 함수의 옵션 파라미터 option 설명 type = 그래프의 형태를 지정 type='p' : 점(point) 그래프 type='l' : 선(l..

[R programming 기초] R 기초 연산자

이항 연산자(Binary operators) vector, matrix 및 scalar 모두에 적용 연산자 설명 + 더하기 - 빼기 * 곱하기 / 나누기 ^ or ** 제곱 x %% y 나머지 x %/% y 나누기 몫의 정수 부분 논리 연산자 연산자 설명 = greater than or equal to == exactly equal to != not equal to !x Not X x | y x OR y x & y X AND y isTRUE(x) test if X is TRUE 문자함수 연산자 설명 substr(x, start= n1, stop = n2) 문자 vector에서 특정 문자열 자르기 혹은 수정 grep(pattern, x, ignore.case=FALSE, fixed=FALSE) 정규식 패턴..

[R programming 기초] R에서의 데이터관리2 - 배열(matrix, array, list)

1차원 배열의 계산 (Vector 연산) 1차원 배열 각 배열은 vector로 지정하고 연산이 가능 곱셈 %*% 덧셈 + 배열 합치기 cbind(), rbind() 역배열, library(MASS)를 부른 후 ginv() 전치배열(행렬 바꾸기) : t() 2차원 배열 (Matrix) row와 column을 가지는 vector 각 column은 같은 mode(숫자 또는 문자 등)의 데이터 각 column내 수록된 항목의 갯수는 일정 생성 시 미리 크기를 지정할 것(nrow=,ncol=) 일반형 Matrix 만들기 mymatrix y y [,1] [,2] [,3] [,4] [1,] 1 6 11 16 [2,] 2 7 12 17 [3,] 3 8 13 18 [4,] 4 9 14 19 [5,] 5 10 15 20 ..

[애니] 2019 1분기 애니 추천 "도로로" (소개&명대사&다시보기)

2019 1분기 애니메이션 '도로로'는 1969년에 제작된 애니메이션의 리메이크판입니다. 만화 데즈카 오사무의 작품이 원작이죠. 레터비의 제작진이 맡아 이전의 그림체는 찾아볼 수가 없습니다.(참 다행이에요 ㅠ, 그래서인지 햣키마루의 얼굴에 간혹 고슈가 보입니다..ㅋㅋㅋㅋ) '도로로'는 사무라이 시대.. 전국시대 이전 시기를 배경으로 합니다. 성주인 다이고 카게미츠는 나라의 번영과 안녕을 위해 귀신과 계약을 합니다. 그 댓가로 그의 아이인 햣키마루는 몸만 남은 채로 태어나게 되죠. (눈, 코 입, 팔, 다리.. 신경, 모두 없습니다..) 16년 후 보이지도, 들리지도 않지만, 요기나 사람의 기척을 느끼는 능력을 가지고 있던 햣키마루는 귀신에게서 몸을 되찾기 위해 여행중이었죠. 그러던 중 도로로라는 아이를 ..

[R programming 기초] R에서의 데이터관리1 - 데이터 입출력, 데이터 형식

데이터 입출력 할당(Assignment) 변수에 해당해당하는 값을 배정하는 것 R에서는 =, attach(women) > mydata$sum detach(mydata) > mydata height weight sum 1 58 115 173 2 59 117 176 3 60 120 180 4 61 123 184 5 62 126 188 6 63 129 192 7 64 132 196 8 65 135 200 9 66 139 205 10 67 142 209 11 68 146 214 12 69 150 219 13 70 154 224 14 71 159 230 15 72 164 236 > mydata$sum1 mydata height weight sum sum1 1 58 115 173 173 2 59 117 176 17..

[R programming 기초]R의 설치와 사용자 환경

R 설치하기 R공식 홈페이지 : https://cran.r-project.org/ 윈도우 환경에 맞는 R 다운로드 경로 : https://cran.r-project.org/bin/windows/base/R-3.6.1-win.exe GUI R 메뉴 이용 등 그래픽 환경을 제공하는 R 구동 프로그램 R studio, R commander 등 R studio 다운로드 : https://www.rstudio.com/products/rstudio/download/#download 기본적인 R 기능 사용하기 더하기 ------------------ > 1+2 [1] 3 ------------------- 랜덤 숫자 10개 불러오기 -------------------- > rnorm(10) [1] 1.2518240 ..

데이터의 탐색 - 결측치와 이상치

1. 종속변수와 독립변수를 선정한다. 2. 정략적 데이터인지, 정성적 데이터인지를 파악한다. 변수의 유형 Character : 문자형 Numeric : 숫자형 Factor : 범주형 Integer : 정수형 분석 가능한 데이터인지를 확인하기 위한 항목 1. 변수의 유형 확인 2. 표준화의 필요성 3. 변수의 선택 4. 데이터의 양 확인 데이터의 표준화 신뢰성 있는 결과를 얻기 위해 표준화가 필요한 경우 다변량 데이터의 경우, 변수의 단위가 서로 다를 수 있음 Z-score = (X-mean(X))/sd(X) 3. 결측치와 이상치 처리 결측치 비율에 따른 변수 제거 결측치가 10%이하인 경우 : 해당 표본을 제거하거나 imputation 결측치가 20%이상인 경우 : 해당 변수 제거 or imputatio..

[데이터분석 공부6일차] 모분산을 이용한 가설검정

모분산 모집단의 흩어져있는 정도를 나타내는 양 점추정 $$\hat{\sigma}^2 = S^2 = \textstyle\sum_{1=1}^2(X_i-\bar{X})^2/(n-1)$$ $$\hat{\sigma}^2 = \sqrt{S^2} = S$$ 구간추정 정규모집단 $$ N(\mu, \sigma^2)$$의 분산 $$ \sigma^2$$에 대한 구간 추정은 다음과 같은 통계량에 기초한다. $$(n-1)S^2/\sigma^2~x^2(n-1)$$ 분산에 대한 100(1-α)%의 신뢰구간 $${\frac{(n-1)S^2}{X^2_{{a/2}^{(n-1)}}},\frac{(n-1)S^2}{X^2_{1-\frac{a}{2}^{(n-1)}}}}$$ 신뢰구간의 예 어느 공정에서 생산되는 강철판 두께의 산포는 어느 정도는..

반응형