[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 2주차
글 작성자: _rian

Chapter 3. 회귀 알고리즘과 모델 규제
3-1. k-최근접 이웃 회귀
- K-최근접 이웃 회귀
- 예측하려는 샘플에 가장 가까운 샘플 k개를 선택
- 분류 문제의 경우, 이 샘플들의 클래스를 확인하여 다수의 클래스를 새로운 클래스로 예측함
- 회귀 문제의 경우, 분류 문제와 마찬가지로 예측하려는 샘플에 가장 가까운 샘플 k개를 선택하여 이를 평균매긴 값으로 선택.
- 결정 계수 (R2R2)
- 회귀 모델에서 모델을 평가하는 방식
- R2=1−∑(target−pred)2∑(target−mean)2
- 각 샘플의 타깃과 예측값의 차리를 제곱하여 더한 후 타깃과 타깃의 평균의 차이를 제곱하여 더한 값으로 나눔.
- R2는 예측이 타겟에 아주 가까워지면 1에 가까운 값이 되며, 타깃이 평균정도를 예측하는 수준이라면 0에 가까워진다. 즉, 1에 가까울수록 좋은 모델이라고 볼 수 있다.
- 과대적합 vs 과소 적합
- 과대적합 (overfitting) : 훈련 세트에서 점수가 굉장히 좋았는데 테스트 세트에서는 점수가 나쁜 경우
- 과소적합 (underfitting) : 훈련세트보다 테스트세트의 점수가 더 높거나 둘 다 너무 낮은 경우
3-2. 선형 회귀
- K-최근접 이웃의 한계
- 새로운 샘플이 훈련 세트의 범위를 벗어나면 엉뚱한 값을 예측하게됨.
- 선형회귀 (Linear Regression)
- 특성이 하나인 경우 어떤 직선을 학습하는 알고리즘.
- 사이킷런에서 sk≤arn.l∈earmodel 패키지 아래 L∈earRegression 클래스로 선형회귀 알고리즘을 구현해놓았음.
- 다항 회귀
- 다항 문제로 해결해야하는 경우 이러한 방정식을 다항식(polynomial)이라고 부르며 다항식을 사용한 선형회귀를 다항 회귀(polynomial regression)라고 부름.
3-3. 특성공학과 규제
- 다중 회귀
- 여러개의 특성을 사용한 선형 회귀를 다중 회귀라고 부름.
- 특성공학
- 기존의 특성을 이용해 새로운 특성을 뽑아내는 과정
- 변환기 (transformer)
- 특성을 만들거나 전처리 하기 위한 클래스로, 사이킷런에서는 이러한 클래스를 transformer라고 부른다.
과제
기본 미션
Ch.03 (03-1) 2번 문제 출력 그래프 인증하기

선택 미션
모델 파라미터에 대해 설명하기
- K-최근접 문제는 인접한 K개의 위치를 바탕으로 예측값을 구하는데, 이때 n≠ighbors는 사용자가 지정하는 하이퍼파라미터 K를 의미한다.
'머신러닝 꿈나무' 카테고리의 다른 글
[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 4주차 (0) | 2024.01.29 |
---|---|
[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 3주차 (1) | 2024.01.21 |
강화학습이란? 심층 강화학습에 대한 정의와 종류 (1) | 2024.01.05 |
[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 1주차 (0) | 2024.01.05 |
[Python 데이터 분석 3대장] Numpy 라이브러리 (0) | 2020.08.04 |
댓글
이 글 공유하기
다른 글
-
[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 4주차
[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 4주차
2024.01.29Chapter 5. 트리 알고리즘 5-1. 결정 트리 결정 트리 (Decision Tree) 예/아니오에 대한 질문을 이어나가면서 정답을 찾아 학습하는 알고리즘 비교적 예측 과정을 이해하기 쉽고 성능도 뛰어남. 불순도 (Gini impurity) 결정트리가 최적의 질문을 찾기 위한 기준 $$\text{지니 불순도} = 1 - (\text{음성 클래스의 비율}^2 + \text{양성 클래스 비율}^2 )$$ 정보이득 (information gain) 부모 노드와 자식 노드의 불순도 차이. 결정트리는 제한없이 성장하면 과대적합 되기가 쉬움. 따라서 가지치기를 함으로써 결정트리의 성장을 제한하는 것도 한 방법 5-2. 교차 검증과 그리드 서치 검증 세트 (validation set) 모델의 과대적합을 막기 위… -
[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 3주차
[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 3주차
2024.01.21Chapter 4. 다양한 분류 알고리즘 4-1. 로지스틱 회귀 Logistic regression 이름은 회귀지만 사실은 분류 모델. 선형 방정식을 사용한 분류 알고리즘. 선형 회귀와 달리 시그모이드 함수나 소프트맥스 함수를 사용하여 클래스의 확률을 출력할 수 있다. 시그모이드 함수 : 선형 방정식의 출력을 0과 1 사이의 값으로 압축. 소프트맥스 함수 : 다중 분류에서 여러 선형 방정식의 출력 결과를 정규화하여 합이 1이 되도록 만듦 4-2. 확률적 경사하강법 점진적 학습 훈련한 모델을 버리지 않고 새로운 데이터에 대해서만 조금씩 훈련하는 학습법. 대표적으로 확률적 경사하강법이 있다. 확률적 경사하강법이란? 전체 샘플을 사용하지 않고 딱 하나의 샘플을 훈련 세트에서 랜덤하게 골라 가장 가파른 길을 찾… -
강화학습이란? 심층 강화학습에 대한 정의와 종류
강화학습이란? 심층 강화학습에 대한 정의와 종류
2024.01.05강화학습이란? 순차적인 의사결정 문제를 해결하는 방법. 실제 세계의 많은 문제는 순차적 의사 결정 문제로 표현될 수 있다. 강화학습 문제는 에이전트와 환경으로 구성되는 하나의 시스템으로 표현될 수 있는데ㅡ 환경은 시스템의 상태를 나타내는 정보를 만들어낸다. 이걸 상태(state)라고 부른다. 핵심 개념 상태 : 시스템의 상태를 나타내는 정보 행동 : 에이전트가 상태를 관측하고 그로부터 얻은 정보를 활용하여 행동을 선택함으로써 환경과 상호작용함 보상 : 에이전트의 행동을 통해 다음 상태에 대한 보상값이 에이전트에게 주어짐. 정책 : 에이전트의 행동 생성 함수를 정책이라고 한다. 정책은 상태로부터 행동을 도출하는 함수를 의미함. 목적 : 에이전트가 받는 보상의 총합. 좋은 행동을 선택함으로써 목적을 최대로 … -
[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 1주차
[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 1주차
2024.01.05Chapter 1. 나의 첫 머신러닝 머신러닝 : 규칙을 일일이 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 찾아내는 알고리즘을 연구하는 분야 딥러닝 : 인공신경망을 기반으로 한 방법들을 통칭 첫번째 머신러닝 프로그램 : K-Nearest Neighbors 알고리즘으로 도미, 빙어 두 생선을 분류하기 Chapter 2. 데이터 다루기 2-1. 훈련 세트와 테스트 세트 지도학습과 비지도 학습 지도학습 : 데이터와 "정답"이 있는 경우 훈련 세트와 테스트 세트 훈련 세트 : 모델 훈련에 사용되는 데이터 테스트 세트 : 평가에 사용되는 데이터 샘플링편향 훈련 세트와 테스트 세트에 샘플이 골고루 섞여있지 않고 한쪽으로 치우친 경우 2-2. 데이터 전처리 훈련 세트와 테스트 세트로 나누기 사이킷런의 train…
댓글을 사용할 수 없습니다.