Statistics/Practical Statistics for Data Scientists 6

[Practical Statistics for Data Scientists] Scaling and Categorical Variables

데이터가 올바르게 scale이 되어있지 않다면 PCA, K-means, 그리고 다른 여러 Clustering Methods와 같이 비지도학습을 진행하는 경우, 단순히 값이 큰 변수의 영향이 과하게 커지고, 값이 작은 변수는 무시되는 상황이 발생할 우려가 있기 때문에 비지도학습을 진행하는 경우 일반적으로 스케일링을 진행하게 됩니다. Scaling 변수별로 데이터의 스케일이 다르면, 앞서 언급했듯, 머신러닝이 원하는대로 잘 작동하지 않을 가능성이 있습니다. 따라서 저희는 데이터의 범위 혹은 분포를 같게 만들어주는 Scaling 작업을 거쳐야합니다. 스케일링 방법 중에 가장 흔하게 사용되는 Normalization과 Standardization에 대해 얘기해보려고 합니다. Normalization(정규화) 정..

[Practical Statistics for Data Scientists] K-Nearest Neighbors

KNN(K-Nearest Neighbors) KNN 알고리즘의 원리는 간단합니다. 거리가 가장 가까운 k개의 데이터를 선정합니다. 분류의 경우, 선정한 k개의 데이터 중 제일 많은 데이터가 속한 class로 새로운 데이터를 분류합니다. 예측의 경우, 선정한 k개의 데이터의 평균을 구하여 새로운 데이터를 그 값으로 예측합니다. 위의 그림을 예로 들자면, 분류 문제일 때, k = 3일 때 가장 가까운 3개의 데이터는 빨간 별 1개, 초록 세모 2개로, 초록 세모가 더 많은 데이터를 구성하고 있기 때문에 새로운 데이터는 초록 세모로 분류합니다. k = 7일 때, 가장 가까운 데이터는 빨간 별이 4개, 초록 세모가 3개로, 빨간 별이 더 많은 데이터를 구성하고 있기 때문에 새로운 데이터는 빨간 별로 분류됩니다...

[Practical Statistics for Data Scientists] Strategies for Imbalanced Data

불균형 클래스(Imbalanced Data) : 아래 그림과 같이 클래스의 분포에 불균형이 있는 경우를 일컫습니다. 주로 보험 사기, 희귀병과 같이 희귀 케이스가 클래스로 존재하는 경우 발생합니다. 우리가 알고 있는 대부분의 모델은 클래스가 균형 있는 경우 더 좋은 성능을 보입니다. 따라서 불균형 클래스인 경우 모델의 성능을 향상시키기 위해 사용할 수 있는 다양한 방법들에 대해 소개해보려고 합니다. 과소표집(Undersampling) : 과소표집은 다른 클래스들에 비해 상대적으로 많이 분포하고 있는 클래스의 데이터를 줄여 데이터를 균형있게 만드는 방법입니다. 크기가 작고 균형 있는 데이터를 사용하는 것이 모델의 성능을 올려주기도 합니다. 또한 크기가 작아지기 때문에 전체적으로 모델이 가벼워진다는 장점이 ..

[Practical Statistics for Data Scientists] Simple & Multiple Linear Regression

회귀분석 회귀분석의 목적은 관심이 있는 종속변수(Y)에 영향을 주는 독립변수(X)를 찾고, 두 변수 간의 관계를 잘 설명하는 모델을 만드는 것입니다. 보통 회귀분석은 Linear Regression(선형회귀분석)을 의미하고 선형회귀분석의 모델은 다음과 같이 표현됩니다. $Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_n + \epsilon$ 설명드릴 Simple Linear Regression(단순선형회귀)와 Multiple Linear Regression(다중선형회귀)는 독립변수(X)의 숫자로 구분됩니다. 독립변수의 수가 1개일 때 단순선형회귀라 부르고, 2개 이상일 경우 다중선형회귀가 됩니다. Simple Linear Regression(단순선형회귀..

[Practical Statistics for Data Scientist] Hypothesis Testing and Resampling

실험 설계는 현실에서의 통계 적용에 초석이 되고, 거의 모든 분야에 적용됩니다. 실험 설계의 목적은 가설을 채택하거나 기각하는 데에 있습니다. 데이터 사이언스에서는, 주로 특정 UI(User Interface)에 대해, 혹은 마케팅 방법에 대해 실험이 빈번히 이뤄진다고 합니다. 전통적인 통계학에서의 실험은 다음과 같은 파이프라인을 따릅니다. Formulate hypothesis: A약이 기존의 약보다 효과가 좋다, 가격A가 기존의 가격B보다 수익성이 좋다 등 증명하고자 하는 가설 세우기 Design experiment: 어떠한 종류의 테스트가 될지, 통제집단/실험집단의 구성, 처리 방법 등, 실험방법에 대한 설계 Collect Data: 설계된 실험을 바탕으로 데이터를 수집 Inference/conclu..

[Practical Statistics for Data Scientist] Binomial Distribution, Poisson Distribution, Exponential Distribution, Chi-Square Distribution, F-Distribution

Binomial Distribution(이항분포) 이항분포를 설명하기 앞서 베르누이 시행(Bernoulli Trial)에 대해 알아야합니다. 베르누이 시행이란, 오직 2개의 결과만을 가지는 시행을 의미합니다. 베르누이 시행의 예시로는 동전 던지기(H/T), 신생아의 성별(남아/여아) 등이 있습니다. 성공확률이 $p$인 베르누이 시행을 $n$번 하였을 때, 성공 횟수 혹은 특정 사건의 발생 횟수 $x$를 확률변수로 하는 분포를 이항분포(Binomial Distribution)라 합니다. 이항분포함수는 다음과 같이 표현 가능합니다. $p(x) = \binom{n}{x}p^x(1-p)^{n-x}$ $X\sim B(n, p)$ 이를 확률변수 X가 시행횟수가 n, 성공확률이 p인 이항분포를 따른다고 합니다. ex..