[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 2주차

글 작성자: _rian

Chapter 3. 회귀 알고리즘과 모델 규제

K-최근접 이웃 회귀
- 예측하려는 샘플에 가장 가까운 샘플 k개를 선택
- 분류 문제의 경우, 이 샘플들의 클래스를 확인하여 다수의 클래스를 새로운 클래스로 예측함
- 회귀 문제의 경우, 분류 문제와 마찬가지로 예측하려는 샘플에 가장 가까운 샘플 k개를 선택하여 이를 평균매긴 값으로 선택.
결정 계수 ($R^2$)
- 회귀 모델에서 모델을 평가하는 방식
- $R^2 = 1 - \frac{\sum(target - pred)^2}{\sum(target - mean)^2}$
- 각 샘플의 타깃과 예측값의 차리를 제곱하여 더한 후 타깃과 타깃의 평균의 차이를 제곱하여 더한 값으로 나눔.
- $R^2$는 예측이 타겟에 아주 가까워지면 1에 가까운 값이 되며, 타깃이 평균정도를 예측하는 수준이라면 0에 가까워진다. 즉, 1에 가까울수록 좋은 모델이라고 볼 수 있다.
과대적합 vs 과소 적합
- 과대적합 (overfitting) : 훈련 세트에서 점수가 굉장히 좋았는데 테스트 세트에서는 점수가 나쁜 경우
- 과소적합 (underfitting) : 훈련세트보다 테스트세트의 점수가 더 높거나 둘 다 너무 낮은 경우

K-최근접 이웃의 한계
- 새로운 샘플이 훈련 세트의 범위를 벗어나면 엉뚱한 값을 예측하게됨.
선형회귀 (Linear Regression)
- 특성이 하나인 경우 어떤 직선을 학습하는 알고리즘.
- 사이킷런에서 `sklearn.linear_model` 패키지 아래 `LinearRegression` 클래스로 선형회귀 알고리즘을 구현해놓았음.
다항 회귀
- 다항 문제로 해결해야하는 경우 이러한 방정식을 다항식(polynomial)이라고 부르며 다항식을 사용한 선형회귀를 다항 회귀(polynomial regression)라고 부름.

다중 회귀
- 여러개의 특성을 사용한 선형 회귀를 다중 회귀라고 부름.
특성공학
- 기존의 특성을 이용해 새로운 특성을 뽑아내는 과정
변환기 (transformer)
- 특성을 만들거나 전처리 하기 위한 클래스로, 사이킷런에서는 이러한 클래스를 transformer라고 부른다.

Ch.03 (03-1) 2번 문제 출력 그래프 인증하기

모델 파라미터에 대해 설명하기

K-최근접 문제는 인접한 K개의 위치를 바탕으로 예측값을 구하는데, 이때 `n_neighbors`는 사용자가 지정하는 하이퍼파라미터 K를 의미한다.