통계학 공부 시작 with R
컴퓨터공학을 전공으로 시작할 무렵에는 수학의 필요성에 대해 크게 느끼지 못했다. 그도 그럴 것이 학부에서 배우는 과정은 몇몇 과목들을 제외하고 크게 수학이 필요하지 않았다. 지금 생각해보니 나만 그랬는지 모르겠다. 그리고 그 때문인지 수학을 오랫동안 하지 않아서 까먹었다. 아무튼, 수학이 필요하다는 것을 느낀 계기가 있었는데 바로 대학원 진학이었다.
2015년 2월, 다니던 회사를 그만두고 대학원으로 진학하면서 논문을 보기 시작했다. 그중에서도 실내 위치 인식과 움직이는 사람이나 사물의 실내 위치를 결정하기 위해 확률을 이용한 논문들을 많이 접했다. 당시에는 확률이 이렇게나 많은 연구 분야에 쓰이고 있는지 몰랐다. 적어도 내가 본 논문에서 느낀 점은 수학과 수식에 익숙해져야 한다는 것이었다. 그렇게 대학원 생활의 시작과 끝을 수학과 함께했다. 주로 확률 이론 공부를 했지만 다른 수학 공부도 많이 했다.
그렇게 대학원 생활을 마치고 전에 다니던 회사에서 다시 오퍼를 받았다. 전에는 백엔드 개발자 포지션이었는데 이번에 받은 오퍼는 백엔드 개발자 + 데이터 분석도 겸하는 포지션이었다. 대학원 진학 후 공학에 대한 시야가 조금은 넓어지고 적어도 나는 그렇게 생각한다. 여러 분야에 관심이 생기기 시작한 나에게는 매력적인 오퍼였다. 그렇게 일주일이라는 시간을 고민하고 입사를 결정했다.
입사가 결정되고 내 포지션에 충실하기 위해 통계학 공부를 해야겠다고 마음먹었다. 더불어 통계학 공부를 하기 위해서 책도 한 권 구매했다. 책 이름은 [크롤리의 통계학 강의] 이다. 아직 시간을 내서 제대로 살펴보지는 못했지만 R Programming과 통계학을 병행하기 좋은 책인 거 같다. 어쨌거나 이를 계기로 대학원에 이어서 통계학으로 수학 공부를 다시 시작한다. 수학이면 수학이고 아니면 아닌
포스팅을 마무리하기 전에 책 앞의 내용을 간단하게 살펴보면 통계 작업을 시작하는 것에 있어서 기본적인 사항에 대해서 정리하고 있다.
첫 번째로 통계 작업에서 가장 어려운 부분은 그 작업을 시작하는 것이며, 그중에서도 데이터의 특성과 분석 목적에 맞게 합당한 통계적 방법을 선택해야 한다는 것이다.
먼저 변수의 특성을 정확히 파악하는 것이 중요하다.
대부분의 경우 작업을 진행하는 목적은 변수의 변화 양상을 알아내는 것이다. 그래프에서 반응 변수(response variable)를 y축에, 설명 변수(explanatory variable)를 x축에 나타낸다. 설명 변수의 변화에 따라 반응 변수가 어느 정도로 변화하는지 주의 깊게 관찰해야 한다. 따라서 키나 체중과 같이 실수(real number)로 나타낼 수 있는 변수를 연속형 변수(continuous variable)라 하며, 둘 또는 그 이상의 수준(level)을 가진 요인(factor)으로 이뤄져 있는 변수를 범주형 변수(categorical variable)라 한다.
example)
- 성별은 두 개의 수준(남성, 여성)을 가진 요인
- 무지개는 일곱 개의 수준(빨, 주, 노, 초, 파, 남,보)을 가진 요인
다음으로는 데이터에서 다음의 내용을 정확하게 파악해야 한다.
- 어느 것이 반응 변수인가?
- 어느 것이 설명 변수인가?
- 설명 변수는 연속형 변수와 범주형 변수 중 어느 것에 해당하는가? 혹은 두 개의 혼합형인가?
- 반응 변수는 연속형 혹은 카운트(count), 비율(proportion), 사망까지의 시간(time-at-death), 범주형 데이터 중 어느 것에 해당하는가?
이런 내용을 데이터에서 확인했다면 합당한 통계적 방법을 선택할 수 있다.
설명 변수
- 모두 연속형 변수 - 회귀 분석(Regression)
- 모두 범주형 변수 - 분산 분석(Analysis of variance)
- 일부는 연속형 변수, 일부는 범주형 변수 -
공분산 분석(Analysis of covariance)
반응 변수
- 연속형 - 회귀 분석, 분산 분석, 공분산 분석
- 비율 - 로지스틱 회귀 분석(Logistic regression)
- 카운트 - 로그 선형 모형(Log linear models)
- 바이너리 - 바이너리 로지스틱 분석(Binary logistic analysis)
- 사망까지의 시간 - 생존 분석(Survival analysis)
이렇게 데이터의 특성을 파악하면 위와 같은 통계적 방법을 선택할 수 있다. 다음 포스팅에서는 나머지 기본 사항에 대해서 살펴볼 예정이다.