이 영역을 누르면 첫 페이지로 이동
butter_shower 블로그의 첫 페이지로 이동

butter_shower

페이지 맨 위로 올라가기

butter_shower

머신러닝 꿈나무

  • butter_shower
Ray와 Ray를 이용한 ML모델 학습 예시

Ray와 Ray를 이용한 ML모델 학습 예시

2024.02.15
https://www.ray.io/ Productionizing and scaling Python ML workloads simply | Ray Scale your compute-intensive Python workloads. From reinforcement learning to large-scale model serving, Ray makes the power of distributed compute easy and accessible to every engineer. www.ray.io Ray란? 오픈소스 분산 컴퓨팅 프레임워크. Python 기반으로 간단하면서도 강력한 API를 제공하고 있다. (한마디로, 편하다!) 기계학습, 강화학습 등의 컴퓨팅 작업도 수월하게 처리 가능함. 핵심 기능 간편한..
[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 5주차

[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 5주차

2024.02.05
Chapter 6. 비지도학습 6-1. 군집 알고리즘 비지도학습 (unsupervised learning) 타깃 (label)이 없을때 사용하는 알고리즘. 군집화 (clustering) 비슷한 샘플끼리 그룹으로 모으는 작업 클러스터 (clusert) : 군집 알고리즘으로 만든 그룹 6-2. k-평균 k-평균 (k-means) : 평균값을 자동으로 찾아주는 대표적인 군집 알고리즘 평균값이 클러스터의 중심에 위치하기 때문에 클러스터 중심 (cluser cener) 또는 센트로이드 (centroid) 라고 불림. 알고리즘 동작 방법 1. 무작위로 k개의 클러스터 중심을 정함 2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정 3. 클러스터에 속한 샘플의 평균 값으로 클러스터의 중심..
[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 4주차

[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 4주차

2024.01.29
Chapter 5. 트리 알고리즘 5-1. 결정 트리 결정 트리 (Decision Tree) 예/아니오에 대한 질문을 이어나가면서 정답을 찾아 학습하는 알고리즘 비교적 예측 과정을 이해하기 쉽고 성능도 뛰어남. 불순도 (Gini impurity) 결정트리가 최적의 질문을 찾기 위한 기준 $$\text{지니 불순도} = 1 - (\text{음성 클래스의 비율}^2 + \text{양성 클래스 비율}^2 )$$ 정보이득 (information gain) 부모 노드와 자식 노드의 불순도 차이. 결정트리는 제한없이 성장하면 과대적합 되기가 쉬움. 따라서 가지치기를 함으로써 결정트리의 성장을 제한하는 것도 한 방법 5-2. 교차 검증과 그리드 서치 검증 세트 (validation set) 모델의 과대적합을 막기 위..
[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 3주차

[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 3주차

2024.01.21
Chapter 4. 다양한 분류 알고리즘 4-1. 로지스틱 회귀 Logistic regression 이름은 회귀지만 사실은 분류 모델. 선형 방정식을 사용한 분류 알고리즘. 선형 회귀와 달리 시그모이드 함수나 소프트맥스 함수를 사용하여 클래스의 확률을 출력할 수 있다. 시그모이드 함수 : 선형 방정식의 출력을 0과 1 사이의 값으로 압축. 소프트맥스 함수 : 다중 분류에서 여러 선형 방정식의 출력 결과를 정규화하여 합이 1이 되도록 만듦 4-2. 확률적 경사하강법 점진적 학습 훈련한 모델을 버리지 않고 새로운 데이터에 대해서만 조금씩 훈련하는 학습법. 대표적으로 확률적 경사하강법이 있다. 확률적 경사하강법이란? 전체 샘플을 사용하지 않고 딱 하나의 샘플을 훈련 세트에서 랜덤하게 골라 가장 가파른 길을 찾..
[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 2주차

[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 2주차

2024.01.14
Chapter 3. 회귀 알고리즘과 모델 규제 3-1. k-최근접 이웃 회귀 K-최근접 이웃 회귀 예측하려는 샘플에 가장 가까운 샘플 k개를 선택 분류 문제의 경우, 이 샘플들의 클래스를 확인하여 다수의 클래스를 새로운 클래스로 예측함 회귀 문제의 경우, 분류 문제와 마찬가지로 예측하려는 샘플에 가장 가까운 샘플 k개를 선택하여 이를 평균매긴 값으로 선택. 결정 계수 ($R^2$) 회귀 모델에서 모델을 평가하는 방식 $R^2 = 1 - \frac{\sum(target - pred)^2}{\sum(target - mean)^2}$ 각 샘플의 타깃과 예측값의 차리를 제곱하여 더한 후 타깃과 타깃의 평균의 차이를 제곱하여 더한 값으로 나눔. $R^2$는 예측이 타겟에 아주 가까워지면 1에 가까운 값이 되며, ..
강화학습이란? 심층 강화학습에 대한 정의와 종류

강화학습이란? 심층 강화학습에 대한 정의와 종류

2024.01.05
강화학습이란? 순차적인 의사결정 문제를 해결하는 방법. 실제 세계의 많은 문제는 순차적 의사 결정 문제로 표현될 수 있다. 강화학습 문제는 에이전트와 환경으로 구성되는 하나의 시스템으로 표현될 수 있는데ㅡ 환경은 시스템의 상태를 나타내는 정보를 만들어낸다. 이걸 상태(state)라고 부른다. 핵심 개념 상태 : 시스템의 상태를 나타내는 정보 행동 : 에이전트가 상태를 관측하고 그로부터 얻은 정보를 활용하여 행동을 선택함으로써 환경과 상호작용함 보상 : 에이전트의 행동을 통해 다음 상태에 대한 보상값이 에이전트에게 주어짐. 정책 : 에이전트의 행동 생성 함수를 정책이라고 한다. 정책은 상태로부터 행동을 도출하는 함수를 의미함. 목적 : 에이전트가 받는 보상의 총합. 좋은 행동을 선택함으로써 목적을 최대로 ..
[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 1주차

[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 1주차

2024.01.05
Chapter 1. 나의 첫 머신러닝 머신러닝 : 규칙을 일일이 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 찾아내는 알고리즘을 연구하는 분야 딥러닝 : 인공신경망을 기반으로 한 방법들을 통칭 첫번째 머신러닝 프로그램 : K-Nearest Neighbors 알고리즘으로 도미, 빙어 두 생선을 분류하기 Chapter 2. 데이터 다루기 2-1. 훈련 세트와 테스트 세트 지도학습과 비지도 학습 지도학습 : 데이터와 "정답"이 있는 경우 훈련 세트와 테스트 세트 훈련 세트 : 모델 훈련에 사용되는 데이터 테스트 세트 : 평가에 사용되는 데이터 샘플링편향 훈련 세트와 테스트 세트에 샘플이 골고루 섞여있지 않고 한쪽으로 치우친 경우 2-2. 데이터 전처리 훈련 세트와 테스트 세트로 나누기 사이킷런의 train..
토큰화(tokenize)란?

토큰화(tokenize)란?

2022.02.17
토큰화 토큰화란? 단위별 토큰화 1. 단어 단워 토큰화 2. 문자 단위 토큰화 3. 서브워드 단위 토큰화 바이트 페어 인코딩 (BPE, Byte Pair Encoding) 장점 BPE를 활용한 토큰화 절차 워드피스 (wordpiece) 토큰화 토큰화란? 문장을 토큰 시퀀스로 나누는 과정. 수행 대상에 따라 문자, 단어, 서브워드 등 세가지 방법 존재 단위별 토큰화 1. 단어 단위 토큰화 단어(어절) 단위 토큰화. 쉽게는 공백으로 구분 예시) 어제 카페 갔었다 -> 어제, 카페, 갔었, 다 어휘 집합의 크기는 10만개를 훌쩍 넘는 경우가 다반사. 2. 문자 단위 토큰화 단어 대신 문자 단위로 토큰화. 한글, 영어, 숫자 등을 다 포함해도 크기가 작음. 단점 : 의미 있는 단위가 되기 어렵다. 예시) 어제 ..
[pyspark/빅데이터기초] Parquet(파케이) 파일 형식이란?

[pyspark/빅데이터기초] Parquet(파케이) 파일 형식이란?

2021.11.17
파케이(parquet)이란 하둡에서 칼럼방식으로 저장하는 저장 포맷을 말합니다. 파케이는 프로그래밍 언어, 데이터 모델 혹은 데이터 처리 엔진과 독립적으로 엔진과 하둡 생태계에 속한 프로젝트에서 칼럼 방식으로 데이터를 효율적으로 저장하여 처리 성능을 비약적으로 향상시킬 수 있습니다. 열(Column)기반 압축을 하고있는데 이는 칼럼의 데이터가 연속된 구조로 저장되어 있다. Row 중심으로 저장되어있는 것과는 아래 사진을 보면 이해가 빠를 것 같습니다. 열을 기반으로 데이터를 처리하면 행 기반으로 압축했을때에 비해 데이터의 압축률이 더 높고, 필요한 열의 데이터만 읽어서 처리하는 것이 가능하기 때문에 데이터 처리에 들어가는 지원을 절약할 수 있습니다. 파케이는 하둡 에코시스템 안에서 언제든지 사용 가능한 ..
[빅데이터기초] 스파크란?

[빅데이터기초] 스파크란?

2021.11.13
스파크란? 아파치 스파크는 마태자하리아가 UC 버클리에서 박사과정 논문의 일부로 개발한 강력한 오픈소스 처리 엔진입니다. 스파크는 오픈소스 분산 쿼리 및 처리 엔진으로, 유연성과 맵리듀스에 대한 확장성을 훨씬 빠른 속도로 제공하고 있습니다. 데이터가 메모리에 저장되어있을 경우에는 하둡보다 100배 빠르며, 디스크에 저장되어 있을 때에는 10배 빠릅니다. 스파크는 데이터를 읽고, 변형하고, 합계를 낼 수 있으며 복잡한 통계 모델들을 쉽게 학습하고 배포할 수 있다는 특징이 있습니다. 스파크 API는 자바, 스칼라, 파이썬, R, SQL을 이용해 접근할 수 있습니다. 어플리케이션을 빌드하는데 쓰일수도 있고, 여러 어플리케이션을 라이브러리로 묶어서 클러스터에 배포할수도 있으며, 파이썬 노트북을 통해 대화식으로 ..
[Pyspark] Pyspark의 여러가지 함수들

[Pyspark] Pyspark의 여러가지 함수들

2021.11.12
0. 데이터 프레임 안의 내용 보기 (1) 상위 N개만 출력 - show() # 상위 20개만 출력 df.show() # 상위 n개 출력 df.show(n) (2) 전체 데이터 출력 - collect() df.collect() 1. 특정 칼럼 선택해 출력하기 - select() import pyspark.sql.functions as F # 특정 칼럼만 보기 df.select(F.col('col1'), F.col('col2'), F.col('col3')).show() 2. 정렬 - orderBy() df.orderBy('칼럼명', ascending=True) # default : True, 오름차순 3. 상위 n개만 커트 df = df.limit(1000) # 상위 1000개 데이터로 갱신 4. 칼럼을 ..
[Pyspark] udf에서 2개 이상의 multiple column 리턴하기

[Pyspark] udf에서 2개 이상의 multiple column 리턴하기

2021.11.04
import pyspark.sql.functions as F from pyspark.sql.functions import udf def fill_empty_data(ds, y, avg_prc): data = {'ds' : ds, 'y' : y, 'avg_prc' : avg_prc} df = pd.DataFrame(data) date_range = pd.date_range(start=START_DATE, end=END_DATE) df['ds'] = pd.to_datetime(df['ds']) df = df.set_index('ds') df = pd.merge(date_range.to_frame(), df, left_index=True, right_index=True, how='left') df['ds'] ..
  • 최신
    • 1
    • 2
    • 3
  • 다음

정보

butter_shower 블로그의 첫 페이지로 이동

butter_shower

  • butter_shower의 첫 페이지로 이동

검색

메뉴

  • All Categories
  • About Me
  • Guest Book

카테고리

  • 전체보기 (223)
    • 💫 주인장 이야기 (17)
    • 🌱 와글와글뻘글 (27)
    • IT Trends (11)
    • 주인장 일상 (0)
    • 📒 내 마음대로 독서 서평 (12)
    • 머신러닝 꿈나무 (30)
      • 기본 개념 (6)
      • Hands-on! (5)
      • Paper Review (5)
      • 캐린이의 Kaggle (1)
    • 알고리즘 Algorithm (33)
      • PS (8)
    • Computer Engineering (75)
      • Python (8)
      • Cloud Computing (9)
      • C (9)
      • C++ (0)
      • Java (6)
      • Django 장고 (4)
      • 임베디드 시스템 (10)
      • 병렬 처리(Parallel Processing) (9)
      • 데이터 통신 Data communication (4)
      • 유닉스 시스템 (Unix System) (3)
      • GitHub (1)
      • 마이크로 프로세서 (micro processor) (1)
      • 데이터 마이닝 (1)
    • Error Note 🚨 (3)
    • 영어 공부 (6)
      • Live Academy (6)
    • HOBBY (2)
      • Film Log (2)

최근 글

정보

_rian의 butter_shower

butter_shower

_rian

나의 외부 링크

  • Github
  • Facebook
  • Instagram
  • LinkedIn
  • Twitter

블로그 구독하기

  • 구독하기
  • RSS 피드

방문자

  • 전체 방문자
  • 오늘
  • 어제

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
Powered by Tistory / AXZ. © _rian. Designed by Fraccino.

티스토리툴바