butter_shower

Jenkins Agent 연결의 종류 및 JNLP 끊김 해결 (JNLP -> WebSocket 연결로 전환)

_rian — Tue, 27 Feb 2024 13:10:21 +0900

Jenkins Agent와 Master가 연결하는데에는 크게 (1)JNLP 방식과 (2)WebSocket 방식이 있습니다.

Jenkins의 Master - Agent 연결 방식의 종류

JNLP (Java Network Launch Protocol) 방식
- master와 agent가 연겨하는 데에 별도의 포트를 사용하여 master - agent 통신을 위한 독립적인 채널을 사용하는 방식
- Jenkins 초기 버전부터 사용되어 온 방식
- 장점 : Jenkins에서 웹 트래픽과 Agent 통신 트래픽을 분리하여 관리할 수 있음.
- 단점 : 방화벽 설정이나 네트워크 정책에 따라 연결 문제를 일으킬 수 있음.
WebSocket 방식
- HTTP 연결을 업그레이드하여 양방향 통신 채널을 제공하는 방식으로, 웹 표준 기술이며 대부분의 현대 웹 브라우저와 호환됨.
- 장점
  - 단일 포트 사용이 가능함. Jenkins 웹서버가 사용하는 동일한 HTTP/HTTPS 포트 (예: 8080/443)을 사용하기 때문에 별도의 포트를 열어두지 않아도 됨.
  - websocket은 지속적인 연결을 유지하므로 연결에 따른 오버헤드가 줄어들고 네트워크 리소스 사용이 최적화 됨
- 단점 : 전통적인 JNLP방식과 달라졌기 때문에 일부 jenkins 플러그인에서 호환성 문제가 발생할 수 있음. websocket 트래픽을 특별히 관리하거나 필터링 해야하는 경우 추가적인 작업이 필요할 수 있음.

WebSocket 방식으로 Jenkins Agent를 추가하는 방법

Jenkins > Jenkins 관리 > System Configuration > 노드관리 > 연결하고자 하는 agent 클릭 > 설정 클릭

2. 아래 구성 설정 중 "Use Websocket" 설정 체크 표시

3. 연결되어 있지 않으면 아래와 같이 나오는데, 여기서 agent.jar 를 클릭하여 다운로드

4. 다운로드 한 agent.jar 파일을 Jenkins Agent 서버로 옮김

Jenkins Agent가 실행되는 위치에 agent.jar 파일 위치시킴
아래와 같이 shell script 작성

쉘 스크립트 실행

5. 연결 완료 및 연결 확인

파이썬에서 백업 파일 및 임시 파일 생성하는 방법

_rian — Tue, 20 Feb 2024 14:55:45 +0900

가끔가다가 파일을 읽고 저장하는 과정에서 오류가 발생할 시 파일이 손상되어 더이상 사용할 수 없게 되는 경우들이 발생할 수 있다.
이를 위해 기존 파일에 대한 백업파일을 생성하고, 임시 파일에서 write 작업을 한뒤 기존 파일로 교체해주는 작업을 해줄 수 있다.

1. 백업 파일 생성하는 방법

파이썬의 shutil 라이브러리 내 .copy 함수를 이용하여 백업 파일을 생성하면 된다.

import shutil

path = '/path/to/data.pkl'

# 임시 및 백업 경로 설정
temp_path = path + '.temp'
backup_path = path + '.backup'

# 백업 파일 생성
shutil.copy(path, backup_path)

2. 임시 파일 생성 후 기존 파일로 교체하는 방법

임시파일로 변경된 저장 결과를 저장하고 이를 기존 파일로 교체하기 위해선 os.replace() 를 사용하면 된다.

import os
import pickle

data = {} # ...

# 임시 파일로 저장
with open(temp_path, "wb") as file:
    pickle.dump(data, file)

# 임시 파일을 원본 파일로 교체
os.replace(temp_path, path)

3. 오류 발생 시 원본 파일을 백업에서 복구

오류가 발생해 파일이 정상적으로 종료되지 않았다면 아래와 같이 백업된 파일 경로에서 불러오면 된다.

# backup된 파일을 기존 파일로 복구
shutil.copy(backup_path, path)

4. 임시 파일 or 백업 파일 정리하기 (삭제하기)

백업된 파일과 임시 파일을 제거하고 싶다면 os.remove() 를 사용하면 된다.

if os.path.exists(temp_path):
    os.remove(temp_path)
if os.path.exists(backup_path):
    os.remove(backup_path)

Ray와 Ray를 이용한 ML모델 학습 예시

_rian — Thu, 15 Feb 2024 00:55:50 +0900

https://www.ray.io/

Productionizing and scaling Python ML workloads simply | Ray

Scale your compute-intensive Python workloads. From reinforcement learning to large-scale model serving, Ray makes the power of distributed compute easy and accessible to every engineer.

www.ray.io

Ray란?

오픈소스 분산 컴퓨팅 프레임워크. Python 기반으로 간단하면서도 강력한 API를 제공하고 있다. (한마디로, 편하다!)
기계학습, 강화학습 등의 컴퓨팅 작업도 수월하게 처리 가능함.
핵심 기능
- 간편한 병렬화 : Python 함수를 쉽게 병렬 작업으로 전환 가능
- 분산 객체 저장소 : 대규모 데이터 세트를 여러 노드에 걸쳐 효율적으로 공유
- 확장성 : 단일 노드에서 작업을 시작하여 클러스터로 쉽게 확장
- 결함 허용 : 시스템 일부가 실패해도 작업이 계속됨

Ray의 구성 요소

Task (Remote Function)
- 분산처리를 실행하는 "함수"
- 함수를 @ray.remote로 감싸며 어노테이션을 해준다.
- 해당 함수를 호출하게 될 경우 task가 비동기(asynchoronously)하게 실행됨 (동기식이 아님)
- task_func.remote() 를 호출하면 Future 객체로 반환되며, ray.get(future)를 할 경우 task가 실행됨
Actor
- @ray.remote 로 감싼 함수가 호출된 이후 파이썬 클래스의 인스턴스
Driver
- 프로그램이 돌아가는 메인 root 환경 (spark에서 driver와 비슷한 개념)
- ray.init() 을 호출하면 실행됨.
그 외 Object, Job 등이 있지만 이정도만 알아도 개발을 하는 단계에서는 충분하다

Ray를 활용한 예시 코드

# 라이브러리 import
import ray

# 강화학습 예시 - 사전 정의한 agent, env 코드 및 함수
from dqn_agent import DQNAgent
from dqn_env import DQNEnv
from dqn_func import train_dqn, save_model

# Ray 초기화
ray.init()

# DQN 학습을 위한 Ray 원격 함수 정의
@ray.remote
def train_and_save_model(ctlg_no, data, state_size, n_action, model_id):
    agent = DQNAgent(state_size, n_action)
    env = DQNEnv(data)

    train_dqn(agent, env)
    save_model(agent, env, ctlg_no)

    return agent, env

# 데이터 준비
data_list = [prepare_data(i) for i in range(1000)]

# 각 학습을 병렬로 실행
futures = [train_and_save_model.remote(ctlg_no, data, state_size, n_action, i) for i, data in enumerate(data_list)]

# 모든 작업이 완료될때까지 기다림
result_agent, result_env = ray.get(futures)

# Ray 종료
ray.shutdown()

Anaconda Conda 가상환경에서 pip로 패키지 설치하기

_rian — Thu, 15 Feb 2024 00:42:31 +0900

conda 가상환경 생성 및 활성화 후에도 pip로 설치하면 제대로 설치가 되지 않는 경우가 있을 수 있습니다. 그럴때는 먼저 `which pip`를 해서 현재 pip의 경로가 어디로 설정되어있는지 한번 확인해주세요. 그렇지 않다면 절대경로를 입력해서 설치하는 방법이 있습니다.

conda 가상환경 활성화
1. conda activate [가상환경명]
conda 가상환경에 pip설치하기
1. conda install pip
conda 가상환경의 절대경로에 pip로 설치하기
1. (예시 : 경로는 다를 수 있습니다) ~/.conda/envs/[가상환경명]/bin/pip install [패키지명]

[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 5주차

_rian — Mon, 5 Feb 2024 00:54:45 +0900

Chapter 6. 비지도학습

6-1. 군집 알고리즘

비지도학습 (unsupervised learning)
- 타깃 (label)이 없을때 사용하는 알고리즘.
군집화 (clustering)
- 비슷한 샘플끼리 그룹으로 모으는 작업
- 클러스터 (clusert) : 군집 알고리즘으로 만든 그룹

6-2. k-평균

k-평균 (k-means) : 평균값을 자동으로 찾아주는 대표적인 군집 알고리즘
- 평균값이 클러스터의 중심에 위치하기 때문에 클러스터 중심 (cluser cener) 또는 센트로이드 (centroid) 라고 불림.
- 알고리즘 동작 방법
  - 1. 무작위로 k개의 클러스터 중심을 정함
  - 2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정
  - 3. 클러스터에 속한 샘플의 평균 값으로 클러스터의 중심을 정함
  - 4. 클러스터 중심에 변화가 없을 때 까지 2번으로 돌아가 반복
최적의 k 찾기
- 엘보우 (elbow) 방법
  - 이너셔 (inertia) : 클러스터 중심과 샘플 사이의 거리 제곱 합.
    - 클러스터에 속한 샘플이 얼마나 가깝게 모여있는지 나타내는 값. 일반적으로 클러스터 갯수가 늘어나면 클러스터 개개의 크기는 줄어들기 때문에 이너셔도 줄어든다.
    - 클러스터 개수에 따라 이너셔 감소가 꺾이는 지점이 적절한 k 가 될 수 있다.
  - KMeans 클래스에서는 자동으로 이너셔를 계산해서 `inertia_` 속성으로 제공함

6-3. 주성분 분석

차원 축소 (dimensionality reduction)
- 대표적인 비지도학습 작업 중 하나.
- 데이터를 잘 나타내는 일부 특성을 선택해서 데이터의 크기를 줄이고 지도 학습 모델의 성능을 향상시킬 수 있는 방법
- 대표적인 알고리즘으로 주성분 분석 (principal component alaysis)가 있다.
주성분 분석
- 데이터에 있는 분산이 큰 방향을 찾는 방법.
- 설명된 분산 (explained variance) : 주성분이 얼마나 원본 데이터의 분산을 잘 나타내는기 기록한 값
  - PCA 클래스의 `explained_variance_ratio_` 에 각 주성분의 설명된 분산 비율이 기록되어 있따.

미션

기본 미션: k-평균 알고리즘 작동 방식 설명하기

1. 무작위로 k개의 클러스터 중심을 정함
2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정
3. 클러스터에 속한 샘플의 평균 값으로 클러스터의 중심을 정함
4. 클러스터 중심에 변화가 없을 때 까지 2번으로 돌아가 반복

선택 미션: Ch.06(06-3) 확인 문제 풀고, 풀이 과정 정리하기

2번 문제 : 샘플 개수가 1,000개고 특성 개수가 100개인 데이터셋이 있습니다. 이 데이터셋의 크기는 (1000, 100) 입니다. 이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분을 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요? -> (1000, 10)

2번 문제에서 설명된 분산이 가장 큰 주성분을 몇번째인가요? -> 첫번째 주성분. (PCA를 통해 얻은 주성분은 무조건 첫번째 주성분이 가장 분산이 크다.)

[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 4주차

_rian — Mon, 29 Jan 2024 01:47:17 +0900

Chapter 5. 트리 알고리즘

5-1. 결정 트리

결정 트리 (Decision Tree)
- 예/아니오에 대한 질문을 이어나가면서 정답을 찾아 학습하는 알고리즘
- 비교적 예측 과정을 이해하기 쉽고 성능도 뛰어남.
불순도 (Gini impurity)
- 결정트리가 최적의 질문을 찾기 위한 기준
- $$\text{지니 불순도} = 1 - (\text{음성 클래스의 비율}^2 + \text{양성 클래스 비율}^2 )$$
정보이득 (information gain)
- 부모 노드와 자식 노드의 불순도 차이.
결정트리는 제한없이 성장하면 과대적합 되기가 쉬움. 따라서 가지치기를 함으로써 결정트리의 성장을 제한하는 것도 한 방법

5-2. 교차 검증과 그리드 서치

검증 세트 (validation set)
- 모델의 과대적합을 막기 위해 테스트 세트를 사용하지 않고 측정하는 방법
교차 검증 (cross validation)
- 검증세트를 떼어내는 과정을 여러번 반복한 후 이 점수를 평균하여 최종 검증 점수를 얻는 방법
- 데이터의 80~90%를 훈련에 사용할 수 있게 됨.
하이퍼파라미터 튜닝
- 모델이 학습할 수 없어서 사용자가 지정해야만 하는 파라미터를 하이퍼파라미터라고 함.
- 그리드 서치 (GridSearch)
  - 하이퍼파라미터의 탐색을 자동화해주는 도구. 탐색할 매개변수를 나열하면 교차검증을 수행하여 가장 좋은 점수의 매개변수 조합을 선택함.
  - 하이퍼파라미터의 탐색과 교차검증을 한번에 수행하는 사이킷런의 클래스
- 랜덤 서치 (RandomSearch)
  - 탐색할 값을 직접 나열하는 것이 아니라 탐색 값을 샘플링할 수 있는 확률 분포 객체를 전달함. 지정한 횟수만큼 샘플링하여 교차 검증을 수행하기 때문에 탐색량을 조절할 수 있다.

5-3. 트리의 앙상블

정형데이터와 비정형데이터
- 정형 데이터 (structured data) : 어떤 구조로 되어있다는 뜻. csv, excel 등에 저장하기가 쉬움
- 비정형 데이터 (unstructred data) : 텍스트데이터, 사진, 음악 등이 있음
앙상블 학습 (ensemble learning)
- 정형 데이터를 학습할 때 가장 뛰어난 성과를 내는 알고리즘. 대부분 결정트리 기반으로 만들어져 있다.
랜덤 포레스트 (random forest)
- 결정 트리를 랜덤하게 만들어 결정 트리 (나무)의 숲을 만듦. 그리고 각 결정트리의 예측을 사용해 최종 예측을 만드는 방법.
- 부트스트랩 샘플 방식을 사용
  - 전체 데이터셋에서 일부만을 사용하여 계속 샘플링하는 방법. 기본적으로 부트스트랩 샘플은 훈련 세트와 크기가 같게 만든다.
엑스트라 트리 (extra tree)
- 랜덤 포레스트와 비슷하게 동작.
- 랜덤 포레스트와의 차이점은 부트스트랩 샘플을 사용하지 않는다는 점. 즉, 각 결정 트리를 만들 때 전체 훈련 세트를 사용함. 대신 노드 분할할 때 가장 좋은 분할을 찾는 것이 아니라 무작위로 분할함.
그래디언트 부스팅 (gradient boosting)
- 깊이가 얕은 결정 트리를 사용하여 이전 트리의 오차를 보완하는 방식으로 앙상블 하는 방식
- 결정 트리를 연속적으로 추가하여 손실함수를 최소화 하는 방법이기 때문에 훈련 속도는 조금 느리지만 더 좋은 성능을 기대할 수 있다.
- 히스토그램 기반 그래디언트 부스팅
  - 그래디언트 부스팅의 속도를 개선한 방법. XGBoost 모델이 가장 유명하다.

미션

기본 미션 : 교차검증을 그림으로 설명하기

검증세트를 떼어내는 과정을 여러번 반복한 후 이 점수를 평균하여 최종 검증 점수를 얻는 방법

선택미션 : 05-3 앙상블 모델 손코딩 코랩 화면 인증하기

[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 3주차

_rian — Sun, 21 Jan 2024 23:21:24 +0900

진도가 뭔지 몰라서 예전 과제 가져오깅.. ㅎㅎ

Chapter 4. 다양한 분류 알고리즘

4-1. 로지스틱 회귀

Logistic regression
- 이름은 회귀지만 사실은 분류 모델. 선형 방정식을 사용한 분류 알고리즘. 선형 회귀와 달리 시그모이드 함수나 소프트맥스 함수를 사용하여 클래스의 확률을 출력할 수 있다.
  - 시그모이드 함수 : 선형 방정식의 출력을 0과 1 사이의 값으로 압축.
  - 소프트맥스 함수 : 다중 분류에서 여러 선형 방정식의 출력 결과를 정규화하여 합이 1이 되도록 만듦

4-2. 확률적 경사하강법

점진적 학습
- 훈련한 모델을 버리지 않고 새로운 데이터에 대해서만 조금씩 훈련하는 학습법. 대표적으로 확률적 경사하강법이 있다.
확률적 경사하강법이란?
- 전체 샘플을 사용하지 않고 딱 하나의 샘플을 훈련 세트에서 랜덤하게 골라 가장 가파른 길을 찾는 방법.
- 이걸 계속 랜덤하게 반복하여 만족할만한 위치에 도달할 때 까지 내려가는 원리.
- epoch : 확률적 경사하강법에서 훈련 세트를 한번 모두 사용하는 과정. 일반적으로 수십, 수백번 이상의 에포크를 수행.
미니배치 경사하강법
- 여러개의 샘플을 사사하강법을 수행하는 방식
손실함수
- 머신러닝 알고리즘이 얼마나 엉터리인지 측정하는 기준
- 로지스틱 손실함수 : 이진 분류에서 사용하는 손실함수
- 크로스 엔트로피 손실함수 : 다중 분류에서 사용하는 손실함수
- 평균 제곱 오차 : 회귀 문제에서 사용하는 손실함수
에포크와 과대/과소 적합
- early stopping : 과대 적합이 시작되기 전에 훈련을 멈추는 것
- SGDClassifier의 손실함수 : 힌지손실
  - 주로 서포트 벡터머신 알고리즘에서 사용하는 손실함수

미션

기본미션 : 4-1 2번 문제를 풀고 풀이 과정 설명하기

로지스틱 회귀가 이진 분류에서 확률을 출력하기 위해 사용하는 함수 : 시그모이드 함수

선택 미션 : 4-2 과대적합 / 과소적합 손코딩 코랩 화면 캡쳐하기

[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 2주차

_rian — Sun, 14 Jan 2024 21:35:33 +0900

Chapter 3. 회귀 알고리즘과 모델 규제

3-1. k-최근접 이웃 회귀

K-최근접 이웃 회귀
- 예측하려는 샘플에 가장 가까운 샘플 k개를 선택
- 분류 문제의 경우, 이 샘플들의 클래스를 확인하여 다수의 클래스를 새로운 클래스로 예측함
- 회귀 문제의 경우, 분류 문제와 마찬가지로 예측하려는 샘플에 가장 가까운 샘플 k개를 선택하여 이를 평균매긴 값으로 선택.
결정 계수 ($R^2$)
- 회귀 모델에서 모델을 평가하는 방식
- $R^2 = 1 - \frac{\sum(target - pred)^2}{\sum(target - mean)^2}$
- 각 샘플의 타깃과 예측값의 차리를 제곱하여 더한 후 타깃과 타깃의 평균의 차이를 제곱하여 더한 값으로 나눔.
- $R^2$는 예측이 타겟에 아주 가까워지면 1에 가까운 값이 되며, 타깃이 평균정도를 예측하는 수준이라면 0에 가까워진다. 즉, 1에 가까울수록 좋은 모델이라고 볼 수 있다.
과대적합 vs 과소 적합
- 과대적합 (overfitting) : 훈련 세트에서 점수가 굉장히 좋았는데 테스트 세트에서는 점수가 나쁜 경우
- 과소적합 (underfitting) : 훈련세트보다 테스트세트의 점수가 더 높거나 둘 다 너무 낮은 경우

3-2. 선형 회귀

K-최근접 이웃의 한계
- 새로운 샘플이 훈련 세트의 범위를 벗어나면 엉뚱한 값을 예측하게됨.
선형회귀 (Linear Regression)
- 특성이 하나인 경우 어떤 직선을 학습하는 알고리즘.
- 사이킷런에서 `sklearn.linear_model` 패키지 아래 `LinearRegression` 클래스로 선형회귀 알고리즘을 구현해놓았음.
다항 회귀
- 다항 문제로 해결해야하는 경우 이러한 방정식을 다항식(polynomial)이라고 부르며 다항식을 사용한 선형회귀를 다항 회귀(polynomial regression)라고 부름.

3-3. 특성공학과 규제

다중 회귀
- 여러개의 특성을 사용한 선형 회귀를 다중 회귀라고 부름.
특성공학
- 기존의 특성을 이용해 새로운 특성을 뽑아내는 과정
변환기 (transformer)
- 특성을 만들거나 전처리 하기 위한 클래스로, 사이킷런에서는 이러한 클래스를 transformer라고 부른다.

과제

기본 미션

Ch.03 (03-1) 2번 문제 출력 그래프 인증하기

선택 미션

모델 파라미터에 대해 설명하기

K-최근접 문제는 인접한 K개의 위치를 바탕으로 예측값을 구하는데, 이때 `n_neighbors`는 사용자가 지정하는 하이퍼파라미터 K를 의미한다.

강화학습이란? 심층 강화학습에 대한 정의와 종류

_rian — Fri, 5 Jan 2024 18:56:07 +0900

강화학습이란?

순차적인 의사결정 문제를 해결하는 방법.
실제 세계의 많은 문제는 순차적 의사 결정 문제로 표현될 수 있다.
강화학습 문제는 에이전트와 환경으로 구성되는 하나의 시스템으로 표현될 수 있는데ㅡ 환경은 시스템의 상태를 나타내는 정보를 만들어낸다. 이걸 상태(state)라고 부른다.

핵심 개념
- 상태 : 시스템의 상태를 나타내는 정보
- 행동 : 에이전트가 상태를 관측하고 그로부터 얻은 정보를 활용하여 행동을 선택함으로써 환경과 상호작용함
- 보상 : 에이전트의 행동을 통해 다음 상태에 대한 보상값이 에이전트에게 주어짐.
- 정책 : 에이전트의 행동 생성 함수를 정책이라고 한다. 정책은 상태로부터 행동을 도출하는 함수를 의미함.
- 목적 : 에이전트가 받는 보상의 총합. 좋은 행동을 선택함으로써 목적을 최대로 달성하는 것이 목표.
보상함수 $R(s_t, a_t, s_{t+1})$ 은 $(s_t, a_t, s_{t+1})$ 이라는 전이에 대해 하나의 스칼라 값을 할당하는데, 이 값은 양수, 음수, 0 모두 가능하다.
상태공간, 행동공간, 보상함수는 환경에 따라 정의되고, 이를 모아서 $(s, a, r)$ 이라는 튜플로 정의되는데 이 튜플이 강화학습 시스템을 나타내는 기본적인 단위

강화학습에서 학습하는 함수

강화학습에서 학습하는 3개의 주요 함수

상태로부터 행동을 도출하는 정책 $\pi : a \sim \pi(s)$
이득의 기댓값 $E_\gamma[R(\tau)]$ 를 추정하기 위해 필요한 가치 함수 $V^\pi(s)$ 또는 $Q^\pi(s, a)$
환경 모델 $P(s’ | s, a)$

정책은 확률론적으로 알 수 있다. 즉, 동일한 상태에 대해서 확률적으로 다양한 행동을 도출할 수 있다. 이 경우 주어진 상태 $s$에 대해서 행동 $a$가 도출될 확률을 $\pi(a|s)$ 로 나타낼 수 있다. 정채긍로부터 추출된 행동을 $a \sim \pi(s)$ 라고 표현한다.

심층 강화학습이란?

Deep NN을 함수의 근사 기법으로 사용하는 방식

정책 기반 (policy-based) 방식
- 정책 $\pi$ 를 학습. 에이전트의 목적을 최대로 만드는 궤적을 생성함.
- 정책함수 $\pi$ 는 상태 $s$ 를 입력받아 행동 $a \sim \pi(s)$ 를 도출함
- 매우 일반적인 최적화 방법으로, 에이전트가 가장 신경쓰는 목적함수 $J(r)$을 직접 최적화함
- 단점 : 정책의 분산이 크고 훈련 과정이 표본 비효율적임.
가치 기반 (value-based) 방식
- 에이전트 상태 $s$에서 항상 $Q^\pi(s,a)$의 추정값을 가장 크게 만드는 행동 $a$를 선택하는 방법
- DQN, Double DQN 등이 많이 쓰이고 있는 효과적인 알고리즘.
- 일반적으로 정책 기반 알고리즘보다 표본 효율적 (sample-efficient) 다.
모델 기반 (model-based) 방식
- 환경의 전이역학(transition dynamics)에 대한 모델을 학습하거나 이리 알려진 모델을 학습함
- 에이전트는 추정을 통해 환경 모델로부터 궤적의 예측값을 계산함.
- ex. 몬테카를로 트리 탐색

강화학습을 위한 심층학습

심층 신경망은 복잡한 비선형 함수를 근사하는데에 탁월한 능력을 가지고 있음.
2015년 딥마인드가 아타리 게임에서 인간 수준의 성능을 달성한 이후 강화학습 분야에서 개발된 모든 중요한 방법들은 NN을 이용하여 함수를 근사하고 있다.
신경망의 출력을 평가하는 손실 함수가 주어지면 신경망의 파라미터값을 변경하여 손실 함수가 최소가 되도록 하면서 성능을 향상시킬 수 있다. 이때 전역 최솟값 (global minimum)을 찾는 과정에서 손실함수가 가장 빠르게 감소하는 방향으로 파라미터를 변경하기 때문에 이러한 방법을 경사하강법(gradient descent)이라고 부른다.

강화학습과 지도학습

강화학습과 지도학습의 주된 차이점은 강화학습 문제에서는 모델의 모든 입력에 대해 "정확한" 답이 주어지지 않는 반면 지도학습에서는 모든 예제에 대해 정답 또는 최적의 답이 존재함.

활성 정책과 비활성 정책 알고리즘

활성 정책 (on-policy) 알고리즘
- 알고리즘이 정책에 대해 학습하는 경우.
- 정책에 대해 학습한다는 것은 훈련 과정에서 현재의 정책 $\pi$ 로부터 생성된 데이터만을 이용할 수 있다는 뜻.
- 여러 정책 $\pi_1, \pi_2, \pi_3, …$ 에 대해 훈련이 반복될 때, 훈련이 진행되는 바로 그 순간의 정책만을 이용하여 훈련 데이터를 생성한다는 것을 의미함.
- 따라서 훈련이 끝난 후에는 데이터가 더이상 쓸모없어지므로 데이터는 폐기되어야함.
- 표본 비효율적이며 더 많은 데이터를 필요로함.
비활성 정책 (off-policy) 알고리즘
- 수집된 모든 데이터는 훈련을 위해 재사용 될 수 있다.
- 표본 효율적이지만 이 경우 데이터를 저장하기 위한 메모리가 더 많이 필요할 수 있음.

[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 1주차

_rian — Fri, 5 Jan 2024 00:17:00 +0900

Chapter 1. 나의 첫 머신러닝

머신러닝 : 규칙을 일일이 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 찾아내는 알고리즘을 연구하는 분야
딥러닝 : 인공신경망을 기반으로 한 방법들을 통칭
첫번째 머신러닝 프로그램 : K-Nearest Neighbors 알고리즘으로 도미, 빙어 두 생선을 분류하기

Chapter 2. 데이터 다루기

2-1. 훈련 세트와 테스트 세트

지도학습과 비지도 학습
- 지도학습 : 데이터와 "정답"이 있는 경우
훈련 세트와 테스트 세트
- 훈련 세트 : 모델 훈련에 사용되는 데이터
- 테스트 세트 : 평가에 사용되는 데이터
샘플링편향
- 훈련 세트와 테스트 세트에 샘플이 골고루 섞여있지 않고 한쪽으로 치우친 경우

2-2. 데이터 전처리

훈련 세트와 테스트 세트로 나누기
- 사이킷런의 train_test_split() 사용
데이터 전처리 (data preprocessing)
- 데이터 특성값을 일정한 기준으로 맞추는 것
- 가장 널리 사용하는 방법 중 하나는 표준 점수 (standard score)

미션

기본 미션

코랩 실습 화면

선택 미션

Ch.02(02-1) 확인 문제 풀고 풀이 과정 정리하기

문제 : 머신러닝 알고리즘의 한 종류로서 샘플의 입력과 타깃을 알고있을 때 사용할 수 있는 학습 방법은 무엇인가요?

정답 : 지도학습
지도학습은 데이터의 정답이 주어지고 정답을 찾아나가도록 학습하는 것을 의미한다

구글 Gemini에 관해 이모저모

_rian — Sat, 16 Dec 2023 01:12:38 +0900

최근에 구글에서 나온 새로운 멀티모달 AI가 굉장히 화제이다. (이름이 무려 잼미니!!!)

아래 영상으로 되게 핫해졌는데 (9일전 영상이 무려 2백만회!!) 영상을 보면 되게 신기하다.

https://www.youtube.com/watch?v=UIZAiXYceBI&ab_channel=Google

그 이후에 바로 설명하는 블로그가 올라왔다.

https://blog.google/technology/ai/google-gemini-ai/?utm_source=tldrai#sundar-note

Introducing Gemini: our largest and most capable AI model

Gemini is our most capable and general model, built to be multimodal and optimized for three different sizes: Ultra, Pro and Nano.

blog.google

블로그 왈 GPT4보다 모든 부분에서 좋은 성능을 보이고 있다고도 하고 매우 안정적이고 확장가능한 면을 강조하고 있다. 뭔가 기술적인 내용은 별로 없어서 살짝 아쉽..

그래도 저 영상과 블로그 글이 올라오고 바로 12월 13일부로 API도 나와서 Google Cloud로 사용 가능하다.

https://cloud.google.com/vertex-ai/docs/generative-ai/model-reference/gemini

Gemini API | Vertex AI | Google Cloud

Send feedback Gemini API Stay organized with collections Save and categorize content based on your preferences. Preview Vertex AI Gemini API is a Preview offering, subject to the "Pre-GA Offerings Terms" in the General Service Terms section of the Service

cloud.google.com

나는 파이썬으로 살짝 사용해보았는데 확실히 ChatGPT만큼 자연스러운 대화가 가능한 것 같다. 그런데 성능에 대해 왈가왈부 말이 많은데, 확실히 이게 정말 성능이 좋은거 맞아?? 라는 답변이 올때가 있었다. 그리고 아직 한글은 지원이 안되어서 영어로 해야하는 점도 살짝 아쉬운 점도 하나. 사람들의 chatGPT에 대한 신뢰가 만땅인 상태에서 나오는 어느 모델도 다 성에 차 보이진 않는듯.

참고로 개발할 때 chatGPT를 정말 많이 쓰고있는데, 잼미니 모델이 나온지 얼마 안되어서 그런지 사용성과 체감상 성능 측면에선 확실히 압도적이다 라는 느낌은 든다.

그렇다 해도 개발자들이 활용하기 편하게 빠른 API 제공으로 다양한 잼미니 프로젝트들이 나올 것 같다! 또 잼미니 나노, 울트라, 프로 등등 목적을 구분해서 나온 점도 선택의 폭이 넓어져 좋은 점 중 하나! 나중에 한번 사이드로 하고싶은 이 마음 'ㅅ'...!!

spark에서 conda 가상환경 설정하기 & Jupyter에서 conda 가상환경 설정하기

_rian — Wed, 18 Oct 2023 14:47:14 +0900

왜 클러스터에 conda 가상환경을 설정해야할까?

클러스터는 수많은 컴퓨터들이 하나의 클러스터로 묶여있어 분산 처리를 하고있다.
만약 새로운 패키지 설치 혹은 기존 패키지 업데이트가 필요한 경우 각각의 컴퓨터에 설치하거나 업데이트를 해줘야하기 때문에 번거로운 작업이면서 기존 버전과 충돌이 발생할 가능성이 존재함
따라서, 클러스터에 프로젝트에 필요한 하나의 독립된 환경을 만들 필요가 있음. conda를 통해 특정 버전의 패키지와 의존성을 포함하는 독립적인 환경을 만들 수 있게 해줌.

conda 환경 설정 방법 (spark client 모드에서)

1. conda 환경 생성 및 패키지 설치

서비스가 필요한 서버에 conda 가상환경을 생성해준다.
conda create -n my_env python=3.7

2. 가상환경 활성화

conda activate my_env

3. 필요한 각종 라이브러리 설치 및 ipykernel 패키지 설치

개발에 필요한 각종 라이브러리 설치하기
- conda install prophet
conda 가상환경을 jupyter에서도 설정하기 위해 ipykernel 패키지 함께 설치하기
- conda install ipykernel
conda 가상환경을 압축하는 conda-pack 라이브러리 설치하기
- conda install conda-pack

4. 패키지 설치 후 conda 가상환경 압축하기

conda pack 도구를 사용하여 가상환경을 압축한다.

conda pack -n my_env -o my_env.tar.gz

5. 압욱된 가상환경 파일을 분산 파일 시스템(hdfs)에 업로드

모든 클러스터들이 접근할 수 있는 hdfs에 가상환경 파일을 업로드해준다.

hadoop fs -put my_env.tar.gz hdfs://path/to/env

6. YARN 클러스터의 모든 노드에 conda 환경 배포

spark-submit 명령을 실행할 때 --archives 옵션을 사용하셔 conda 환경을 지정

--archives : conda 압축된 파일을 넣어줌. 스파크가 실행될 때 각 executor들에서 자동으로 압축을 해제함.
PYSPARK_PYTHON : executor가 파이썬을 실행하는 경로 설정
PYSPARK_DIRVER_PATH : driver가 파이썬을 실행하는 경로 설정

예시

spark-submit \
--master yarn \
--deploy-mode client \
--archives hdfs://11stnds/user/dpst/env/prophet_test.tar.gz#prophet_test \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./prophet_test/bin/python \
--conf spark.executorEnv.PYSPARK_PYTHON=./prophet_test/bin/python \
your_spark_job.py

7. Jupyter Kernel 설정하기

conda 가상환경이 설치된 주피터 서버에서 커널을 새로 만들어준다.

커널들이 존재하는 경로로 이동
- cd .local/share/jupyter/kernels
경로 새로 생성 & 이동
- mkdir my_env
- cd my_env
해당 경로로 이동 후 아래와 같이 kernel.json 생성

{
    "argv": [
        "/path/to/.conda/envs/prophet_test/bin/python", # conda 가상환경의 경로로 설정 
        "-m",
        "ipykernel_launcher",
        "-f",
        "{connection_file}"
    ],
    "display_name": "my_env",
    "language": "python",
    "env": {
        "HADOOP_CONF_DIR": "/path/to/hadoop",
        "SPARK_HOME": "/path/to/spark",
        "PYTHONPATH": "/path/to/python",
        "PYSPARK_PYTHON" : "./prophet_test/bin/python", # executor에서 사용할 python 경로 설정 
        "PYSPARK_DRIVER_PYTHON" : "//path/to/.conda/envs/prophet_test/bin/python", # driver에서 사용할 python 경로 설정
        "PYSPARK_SUBMIT_ARGS": "--master yarn --driver-memory 10g --executor-memory 20g --num-executors 15 --executor-cores 2 --archives hdfs://path/to/env/my_env.tar.gz#my_env --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./my_env/bin/python --conf spark.executorEnv.PYSPARK_PYTHON=./my_env/bin/python --conf spark.driver.maxResultSize=10g --conf spark.sql.pivotMaxValues=99999 --deploy-mode client --queue RF pyspark-shell"
    }
}

파이썬에서 효율적으로 메모리 관리하는 방법 - del, 제너레이터, 가비지컬렉션

_rian — Thu, 13 Jul 2023 14:43:37 +0900

파이썬은 개발자가 직접 메모리를 관리하는 대신 언어 자체가 대부분의 메모리를 관리해 따로 처리할 필요가 없긴 하나, 코드가 길어지거나 다루는 데이터가 방대하거나 메모리 자원이 한정적일 때 파이썬에서도 메모리 사용을 최적화해주는 것이 필요하다.

1. 사용하지 않는 객체 dealloc

메모리 사용량을 줄이는 가장 간단한 방법은 사용하지 않는 객체를 삭제하는 것이다. del 키워드를 사용하여 수행할 수 있다.

a = [1, 2, 3, 4, 5, ...., 100000000]

# 객체 삭제
del a

더이상 a 객체가 필요하지 않을 때 del 키워드를 사용할 수 있다.

2. 제너레이터 사용

만약 리스트에 많은 양의 데이터가 들어가게 되는 경우 제너레이터를 사용하는 방법도 좋은 고려방안이다. 제너레이터는 필요할때만 데이터를 생성하기때문에 한번에 하나의 항목만 메모리에 유지해 메모리를 크게 절약할 수 있다.

# 리스트 사용
numbers_list = [i for i in range(1000000)]

# 제너레이터 사용
numbers_generator = (i for i in range(1000000))

리스트 타입은 가능하다면 제너레이터를 활용하거나 혹은 array 모듈 또는 numpy 라이브러리를 사용하는 것이 좋다.

3. 가비지 컬렉션

가비지 컬렉션이란?

가비지 컬렉션 (Garbage Collection)은 프로그램이 동적으로 할당했지만 더이상 사용하지 않는 메모리를 자동으로 회수하는 프로그램이다. 실제로는 사용하지 않지만 계속해서 메모리를 점유하고 있는 메모리 릭 (memory leak)을 방지하는 용도이다. 프로그래밍 언어에 따라 동작 방식이 다르다.

파이썬은 가비지컬렉션을 사용해 메모리를 관리해 자동으로 사용하지 않는 메모리를 해제하고 있으나 수동으로 제어가 가능하다. gc 모듈을 사용하면 가비지 컬렉션을 수동으로 제어할 수 있다.

import gc

# 가비지 컬렉션 강제 실행
gc.collect()

Pyspark에서 데이터 파티션 관리방법 - partitionBy()

_rian — Wed, 28 Jun 2023 17:55:38 +0900

데이터 파티셔닝은 대용량의 데이터를 처리할 때 중요한 개념이다. 파티셔닝에 관한 자세한 글은 아래 링크를 참고. https://gmlwjd9405.github.io/2018/09/24/db-partitioning.html

[DB] DB 파티셔닝(Partitioning)이란 - Heee's Development Blog

Step by step goes a long way.

gmlwjd9405.github.io

Pyspark에서는 DataFrameWriter와 partitionBy() 메소드를 사용하여 데이터프레임을 특정 열 기준으로 파티션할 수 있다.

1. 파티션을 지정하여 새로운 테이블을 생성할 경우

df.write\
    .partitionBy('part_date')\
    .format('parquet')\
    .saveAsTable(TABLE_NAME)

위 코드는 part_date를 기준으로 DataFrame을 파티셔닝하고 그 결과를 parquet 현식의 테이블로 저장하는 방법이다.

2. 기존에 있는 테이블에 새로운 파티션의 내용을 추가하고 싶은 경우 - `insertInto()`

기존 테이블이 존재하고 새 파티션에 데이터를 저장하고 싶다면 write mode를 overwrite로 변경하고 insertInto() 명령어와 함께 사용해준다.

df.write\
    .format('parquet')\
    .mode('append')\
    .insertInto(TABLE_NAME)

이는 기존 테이블의 파티션 구조를 그대로 유지하면서 새로운 데이터를 추가할 수 있게 해준다.

YARN Cluster에 연결된 Spark로 pyspark - Oracle 데이터베이스 연결하기

_rian — Thu, 8 Jun 2023 14:24:18 +0900

Step 1. OJDBC 드라이버 설정

https://www.oracle.com/kr/database/technologies/appdev/jdbc.html

JDBC 드라이버 | Oracle 대한민국

클라우드에서도, 온프레미스에서도, Oracle Autonomous Databases를 활용하면 Java 애플리케이션을 쉽고 빠르게 개발할 수 있습니다. Java 개발자들은 Oracle Autonomous Database, 성능 셀프 튜닝, 고가용성, 인메

www.oracle.com

JDBC란?
- Java Database Connectivity의 약자로, 자바에서 데이터베이스에 접속할 수 있도록 하는 자바 API
- 일관된 방식으로 데이터베이스에 접근할 수 있게 해주므로 구체적인 데이터베이스의 시스템 세부사항을 걱정하지 않고도 작업을 수행할 수 있다.
Pyspark, JVM 등 적절한 버전을 찾아 다운로드한다.
ojdbc.jar 는 spark의 각각 driver, executor, yarn 클러스터가 읽을 수 있는 경로에 위치해야 하는데,
- Deploy Mode가 Local인 경우 jdbc는 local머신에 위치하여 spark의 driver, executor가 읽을 수 있는 곳에 위치해야 하고
- Deploy Mode가 Client인 경우 driver는 클라이언트에, executor는 클러스터에 위치하고
- Deploy Mode가 Cluster인 경우 driver, executor가 모두 클러스터에 위치해야 한다.

Step 2. Spark Session 설정

Pyspark 스크립트 내에서 Spark Session을 설정하자
여기에서 spark.driver.extraClassPath와 spark.executor.extraClassPath, 그리고 YARN 클러스터를 사용한다면 spark.yarn.jars에서 ojdbc 드라이버의 위치를 지정해줘야 한다.
아래 예시에서는 client mode이기 때문에 spark의 driver와 executor의 ojdbc 경로 위치가 다르다.
또한 YARN 클러스터를 사용하고 있는 경우 모든 executor들이 접근할 수 있는 위치에 ojdbc가 위치해주어야하고 그것은 HDFS에 위치해있기 때문에 HDFS 경로를 넣어주었다.

from pyspark import SparkConf, SparkContext, StorageLevel
from pyspark.sql import SparkSession, SQLContext

# ojdbc 경로 위치
ojdbc_local_path = "/path/to/ojdbc8.jar"
ojdbc_cluster_path = "hdfs://path/to/ojdbc8.jar"

# spark - YARN 클러스터 셋팅
appName = "Test"
spark = SparkSession.builder\
                    .appName(appName)\
                    .config("spark.jars", ojdbc_local_path)\
                    .config("spark.yarn.jars", ojdbc_cluster_path)\
                    .config("spark.driver.extraClassPath", ojdbc_local_path)\
                    .config("spark.executor.extraClassPath", ojdbc_cluster_path)

sc = spark.sparkContext

Step 3. JDBC 연결 설정

JDBC를 통해 연결하고자 하는 데이터베이스의 정보를 입력해주어야 한다.
데이터베이스 서버의 IP, Port, DB명, ID(useR), password 등의 정보가 필요하다.

# Oracle 연결 정보
ip = ""
port = ""
service_name = ""
user = ""
password = ""

# spark - oracle 연결 정보
driver_format = "jdbc"
driver = "oracle.jdbc.OracleDriver"
url = f"jdbc:oracle:thin:@//{ip}:{port}/{service_name}"
fetchsize = 1000
query = "select * from TABLE_NM"

# 데이터 읽기
df = spark.read.format(driver_format)\
                .option("url", url)\
                .option("driver", driver)\
                .option("user", user)\
                .option("password", password)\
                .option("query", query)\
                .option("fetchsize", fetchsize)\
                .load()

여기에서 spark의 driver와 모든 executor 노드들이 데이터베이스 서버와 방화벽이 해제되어있어야 정상적으로 connection이 된다.

butter_shower

Jenkins Agent 연결의 종류 및 JNLP 끊김 해결 (JNLP -> WebSocket 연결로 전환)

Jenkins의 Master - Agent 연결 방식의 종류

WebSocket 방식으로 Jenkins Agent를 추가하는 방법

파이썬에서 백업 파일 및 임시 파일 생성하는 방법

1. 백업 파일 생성하는 방법

2. 임시 파일 생성 후 기존 파일로 교체하는 방법

3. 오류 발생 시 원본 파일을 백업에서 복구

4. 임시 파일 or 백업 파일 정리하기 (삭제하기)

Ray와 Ray를 이용한 ML모델 학습 예시

Ray란?

Ray의 구성 요소

Ray를 활용한 예시 코드

Anaconda Conda 가상환경에서 pip로 패키지 설치하기

[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 5주차

Chapter 6. 비지도학습

6-1. 군집 알고리즘

6-2. k-평균

6-3. 주성분 분석

미션

기본 미션: k-평균 알고리즘 작동 방식 설명하기

선택 미션: Ch.06(06-3) 확인 문제 풀고, 풀이 과정 정리하기

[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 4주차

Chapter 5. 트리 알고리즘

5-1. 결정 트리

5-2. 교차 검증과 그리드 서치

5-3. 트리의 앙상블

미션

기본 미션 : 교차검증을 그림으로 설명하기

선택미션 : 05-3 앙상블 모델 손코딩 코랩 화면 인증하기

[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 3주차

Chapter 4. 다양한 분류 알고리즘

4-1. 로지스틱 회귀

4-2. 확률적 경사하강법

미션

기본미션 : 4-1 2번 문제를 풀고 풀이 과정 설명하기

선택 미션 : 4-2 과대적합 / 과소적합 손코딩 코랩 화면 캡쳐하기

[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 2주차

Chapter 3. 회귀 알고리즘과 모델 규제

3-1. k-최근접 이웃 회귀

3-2. 선형 회귀

3-3. 특성공학과 규제

과제

기본 미션

선택 미션

강화학습이란? 심층 강화학습에 대한 정의와 종류

강화학습이란?

강화학습에서 학습하는 함수

심층 강화학습이란?

강화학습을 위한 심층학습

강화학습과 지도학습

활성 정책과 비활성 정책 알고리즘

[혼공머신] 혼자 공부하는 머신러닝 & 딥러닝 1주차

Chapter 1. 나의 첫 머신러닝

Chapter 2. 데이터 다루기

2-1. 훈련 세트와 테스트 세트

2-2. 데이터 전처리

미션

기본 미션

선택 미션

Ch.02(02-1) 확인 문제 풀고 풀이 과정 정리하기

구글 Gemini에 관해 이모저모

spark에서 conda 가상환경 설정하기 & Jupyter에서 conda 가상환경 설정하기

conda 환경 설정 방법 (spark client 모드에서)

1. conda 환경 생성 및 패키지 설치

2. 가상환경 활성화

3. 필요한 각종 라이브러리 설치 및 ipykernel 패키지 설치

4. 패키지 설치 후 conda 가상환경 압축하기

5. 압욱된 가상환경 파일을 분산 파일 시스템(hdfs)에 업로드

6. YARN 클러스터의 모든 노드에 conda 환경 배포

7. Jupyter Kernel 설정하기

파이썬에서 효율적으로 메모리 관리하는 방법 - del, 제너레이터, 가비지컬렉션

1. 사용하지 않는 객체 dealloc

2. 제너레이터 사용

3. 가비지 컬렉션

Pyspark에서 데이터 파티션 관리방법 - partitionBy()

1. 파티션을 지정하여 새로운 테이블을 생성할 경우

2. 기존에 있는 테이블에 새로운 파티션의 내용을 추가하고 싶은 경우 - insertInto()

YARN Cluster에 연결된 Spark로 pyspark - Oracle 데이터베이스 연결하기

Step 1. OJDBC 드라이버 설정

2. 기존에 있는 테이블에 새로운 파티션의 내용을 추가하고 싶은 경우 - `insertInto()`