이 영역을 누르면 첫 페이지로 이동
butter_shower 블로그의 첫 페이지로 이동

butter_shower

페이지 맨 위로 올라가기

butter_shower

[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 5주차

  • 2024.02.05 00:54
  • 머신러닝 꿈나무
글 작성자: _rian

Chapter 6. 비지도학습

6-1. 군집 알고리즘

  • 비지도학습 (unsupervised learning)
    • 타깃 (label)이 없을때 사용하는 알고리즘. 
  • 군집화 (clustering)
    • 비슷한 샘플끼리 그룹으로 모으는 작업
    • 클러스터 (clusert) : 군집 알고리즘으로 만든 그룹

6-2. k-평균

  • k-평균 (k-means) : 평균값을 자동으로 찾아주는 대표적인 군집 알고리즘
    • 평균값이 클러스터의 중심에 위치하기 때문에 클러스터 중심 (cluser cener) 또는 센트로이드 (centroid) 라고 불림.
    • 알고리즘 동작 방법
      • 1. 무작위로 k개의 클러스터 중심을 정함
      • 2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정
      • 3. 클러스터에 속한 샘플의 평균 값으로 클러스터의 중심을 정함
      • 4. 클러스터 중심에 변화가 없을 때 까지 2번으로 돌아가 반복
  • 최적의 k 찾기
    • 엘보우 (elbow) 방법
      • 이너셔 (inertia) : 클러스터 중심과 샘플 사이의 거리 제곱 합. 
        • 클러스터에 속한 샘플이 얼마나 가깝게 모여있는지 나타내는 값. 일반적으로 클러스터 갯수가 늘어나면 클러스터 개개의 크기는 줄어들기 때문에 이너셔도 줄어든다. 
        • 클러스터 개수에 따라 이너셔 감소가 꺾이는 지점이 적절한 k 가 될 수 있다. 
      • KMeans 클래스에서는 자동으로 이너셔를 계산해서 `inertia_` 속성으로 제공함

6-3. 주성분 분석

  •  차원 축소 (dimensionality reduction)
    • 대표적인 비지도학습 작업 중 하나.
    • 데이터를 잘 나타내는 일부 특성을 선택해서 데이터의 크기를 줄이고 지도 학습 모델의 성능을 향상시킬 수 있는 방법
    • 대표적인 알고리즘으로 주성분 분석 (principal component alaysis)가 있다. 
  • 주성분 분석 
    • 데이터에 있는 분산이 큰 방향을 찾는 방법.
    • 설명된 분산 (explained variance) : 주성분이 얼마나 원본 데이터의 분산을 잘 나타내는기 기록한 값
      • PCA 클래스의 `explained_variance_ratio_` 에 각 주성분의 설명된 분산 비율이 기록되어 있따. 

 

미션

기본 미션: k-평균 알고리즘 작동 방식 설명하기

  • 1. 무작위로 k개의 클러스터 중심을 정함
  • 2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정
  • 3. 클러스터에 속한 샘플의 평균 값으로 클러스터의 중심을 정함
  • 4. 클러스터 중심에 변화가 없을 때 까지 2번으로 돌아가 반복


선택 미션: Ch.06(06-3) 확인 문제 풀고, 풀이 과정 정리하기

2번 문제 : 샘플 개수가 1,000개고 특성 개수가 100개인 데이터셋이 있습니다. 이 데이터셋의 크기는 (1000, 100) 입니다. 이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분을 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요? -> (1000, 10)

2번 문제에서 설명된 분산이 가장 큰 주성분을 몇번째인가요? -> 첫번째 주성분. (PCA를 통해 얻은 주성분은 무조건 첫번째 주성분이 가장 분산이 크다.)

'머신러닝 꿈나무' 카테고리의 다른 글

Ray와 Ray를 이용한 ML모델 학습 예시  (0) 2024.02.15
[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 4주차  (0) 2024.01.29
[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 3주차  (1) 2024.01.21
[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 2주차  (1) 2024.01.14
강화학습이란? 심층 강화학습에 대한 정의와 종류  (1) 2024.01.05

댓글

이 글 공유하기

  • 구독하기

    구독하기

  • 카카오톡

    카카오톡

  • 라인

    라인

  • 트위터

    트위터

  • Facebook

    Facebook

  • 카카오스토리

    카카오스토리

  • 밴드

    밴드

  • 네이버 블로그

    네이버 블로그

  • Pocket

    Pocket

  • Evernote

    Evernote

다른 글

  • Ray와 Ray를 이용한 ML모델 학습 예시

    Ray와 Ray를 이용한 ML모델 학습 예시

    2024.02.15
  • [혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 4주차

    [혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 4주차

    2024.01.29
  • [혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 3주차

    [혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 3주차

    2024.01.21
  • [혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 2주차

    [혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 2주차

    2024.01.14
다른 글 더 둘러보기

정보

butter_shower 블로그의 첫 페이지로 이동

butter_shower

  • butter_shower의 첫 페이지로 이동

검색

메뉴

  • All Categories
  • About Me
  • Guest Book

카테고리

  • 전체보기 (223)
    • 💫 주인장 이야기 (17)
    • 🌱 와글와글뻘글 (27)
    • IT Trends (11)
    • 주인장 일상 (0)
    • 📒 내 마음대로 독서 서평 (12)
    • 머신러닝 꿈나무 (30)
      • 기본 개념 (6)
      • Hands-on! (5)
      • Paper Review (5)
      • 캐린이의 Kaggle (1)
    • 알고리즘 Algorithm (33)
      • PS (8)
    • Computer Engineering (75)
      • Python (8)
      • Cloud Computing (9)
      • C (9)
      • C++ (0)
      • Java (6)
      • Django 장고 (4)
      • 임베디드 시스템 (10)
      • 병렬 처리(Parallel Processing) (9)
      • 데이터 통신 Data communication (4)
      • 유닉스 시스템 (Unix System) (3)
      • GitHub (1)
      • 마이크로 프로세서 (micro processor) (1)
      • 데이터 마이닝 (1)
    • Error Note 🚨 (3)
    • 영어 공부 (6)
      • Live Academy (6)
    • HOBBY (2)
      • Film Log (2)

최근 글

정보

_rian의 butter_shower

butter_shower

_rian

나의 외부 링크

  • Github
  • Facebook
  • Instagram
  • LinkedIn
  • Twitter

블로그 구독하기

  • 구독하기
  • RSS 피드

방문자

  • 전체 방문자
  • 오늘
  • 어제

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
Powered by Tistory / AXZ. © _rian. Designed by Fraccino.

티스토리툴바