본문 바로가기
데이터 공부 기록 (Study Notes)

[패스트캠퍼스] 커널 아카데미 데이터 분석 부트캠프 18기 2주차 학습일지

by DataStep404 2025. 3. 7.

1. 기초 통계

변량, 도수, 상대 도수, 도수분포표, 히스토그램

이번 주 학습에서는 변량(Variable)과 도수(Frequency), 상대 도수(Relative Frequency)의 개념을 학습하였다. 변량은 데이터의 개별 값들을 의미하며, 도수는 특정 변량이 나타나는 횟수, 상대 도수는 전체 데이터에서 해당 변량의 비율을 의미한다. 이를 정리하여 도수분포표를 만들고, 이를 시각적으로 표현하는 히스토그램을 활용하는 방법을 익혔다.

평균, 분산, 표준편차 개념

평균(Mean)은 데이터의 중심 값을 나타내며, 분산(Variance)은 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 측정하는 값이다. 표준편차(Standard Deviation)는 분산의 제곱근으로, 데이터의 흩어진 정도를 직관적으로 이해하는 데 유용하다.

정규분포, 표준정규분포, 표준화

정규분포(Normal Distribution)는 데이터가 평균을 중심으로 종형 곡선을 따르는 분포이며, 표준정규분포(Standard Normal Distribution)는 평균이 0, 표준편차가 1인 정규분포이다. 데이터 표준화(Standardization)는 데이터를 평균 0, 표준편차 1로 변환하는 과정으로, 이를 통해 다양한 데이터셋을 동일한 기준에서 비교할 수 있다.

모집단, 표본, 모평균, 표본평균, 모분산, 표본분산

모집단(Population)은 전체 데이터 집합을 의미하며, 표본(Sample)은 모집단에서 일부를 추출한 데이터이다. 모집단의 평균을 모평균(Population Mean), 표본의 평균을 표본평균(Sample Mean)이라 하며, 모집단의 분산을 모분산(Population Variance), 표본의 분산을 표본분산(Sample Variance)이라 한다. 표본을 통해 모집단의 특성을 추정하는 방법을 익혔다.

추정, 신뢰도, 신뢰구간

추정(Estimation)은 표본을 이용하여 모집단의 특성을 예측하는 과정이다. 신뢰도(Confidence Level)는 추정의 정확도를 나타내며, 신뢰구간(Confidence Interval)은 특정 신뢰도에서 모집단의 평균이 포함될 것으로 예상되는 범위를 의미한다.


2. 기술 통계

기술 통계와 추론 통계의 차이점

기술 통계(Descriptive Statistics)는 데이터를 요약하고 시각적으로 표현하는 기법이며, 추론 통계(Inferential Statistics)는 표본을 이용하여 모집단의 특성을 예측하는 방법이다.

대푯값과 기초통계량

대푯값(Measure of Central Tendency)은 데이터의 대표 값을 의미하며, 평균(Mean), 중앙값(Median), 최빈값(Mode)이 포함된다. 기초통계량(Basic Statistical Measures)은 데이터의 전반적인 특성을 나타내는 값으로, 분산(Variance), 표준편차(Standard Deviation), 사분위수(Quartile) 등이 있다.

기초통계량 - 중심경향성, 왜도, 첨도

  • 중심경향성(Central Tendency): 데이터의 중심 값을 나타내는 개념으로, 평균, 중앙값, 최빈값이 포함됨.
  • 왜도(Skewness): 데이터의 비대칭성을 나타내는 지표로, 0이면 대칭, 양수이면 오른쪽 꼬리가 긴 분포, 음수이면 왼쪽 꼬리가 긴 분포를 의미함.
  • 첨도(Kurtosis): 분포의 뾰족한 정도를 나타내는 지표로, 정규분포보다 뾰족하면 양의 첨도, 평탄하면 음의 첨도를 가짐.

3. 회귀분석, 공분산, 상관계수

회귀분석

회귀분석(Regression Analysis)은 변수 간의 관계를 분석하고 예측하는 기법으로, 독립 변수와 종속 변수 간의 선형 관계를 모델링하는 데 사용된다. 단순 회귀(Simple Regression)와 다중 회귀(Multiple Regression)가 있으며, 이를 통해 데이터의 패턴을 파악하고 미래 값을 예측할 수 있다.

공분산

공분산(Covariance)은 두 변수 간의 관계를 나타내는 값으로, 양수이면 두 변수가 같은 방향으로 움직이고, 음수이면 반대 방향으로 움직이는 경향이 있음을 의미한다. 하지만 공분산은 값의 크기에 따라 해석이 어려울 수 있다.

상관계수

상관계수(Correlation Coefficient)는 공분산을 정규화하여 두 변수 간의 상관 관계를 측정하는 값이다. -1에서 1 사이의 값을 가지며, 1에 가까울수록 강한 양의 상관관계, -1에 가까울수록 강한 음의 상관관계를 의미한다. 일반적으로 피어슨 상관계수(Pearson Correlation Coefficient)가 많이 사용된다.

 

 

이제 다음주부터는 파이썬 강의가 시작된다. 옛날에 공부하고 자주 사용했던 언어이지만 이번 기회로 기초를 탄탄히 하자.