이 영역을 누르면 첫 페이지로 이동
butter_shower 블로그의 첫 페이지로 이동

butter_shower

페이지 맨 위로 올라가기

butter_shower

머신러닝 꿈나무/Hands-on!

  • butter_shower
[Pyspark] Pyspark의 여러가지 함수들

[Pyspark] Pyspark의 여러가지 함수들

2021.11.12
0. 데이터 프레임 안의 내용 보기 (1) 상위 N개만 출력 - show() # 상위 20개만 출력 df.show() # 상위 n개 출력 df.show(n) (2) 전체 데이터 출력 - collect() df.collect() 1. 특정 칼럼 선택해 출력하기 - select() import pyspark.sql.functions as F # 특정 칼럼만 보기 df.select(F.col('col1'), F.col('col2'), F.col('col3')).show() 2. 정렬 - orderBy() df.orderBy('칼럼명', ascending=True) # default : True, 오름차순 3. 상위 n개만 커트 df = df.limit(1000) # 상위 1000개 데이터로 갱신 4. 칼럼을 ..
[Pyspark] udf에서 2개 이상의 multiple column 리턴하기

[Pyspark] udf에서 2개 이상의 multiple column 리턴하기

2021.11.04
import pyspark.sql.functions as F from pyspark.sql.functions import udf def fill_empty_data(ds, y, avg_prc): data = {'ds' : ds, 'y' : y, 'avg_prc' : avg_prc} df = pd.DataFrame(data) date_range = pd.date_range(start=START_DATE, end=END_DATE) df['ds'] = pd.to_datetime(df['ds']) df = df.set_index('ds') df = pd.merge(date_range.to_frame(), df, left_index=True, right_index=True, how='left') df['ds'] ..
[핸즈온 머신러닝2] Chaper 5. 서포트 벡터 머신

[핸즈온 머신러닝2] Chaper 5. 서포트 벡터 머신

2021.01.24
Chapter 5. 서포트 벡터 머신¶SVM (Support Vector Machine) 서포트 벡터머신은 매우 강력하고 선형이나 비선형 분류, 회귀, 이상치탐색에도 사용할 수 있는 다목적 머신러닝 모델입니다. 머신러닝에서 가장 인기있는 모델에 속하고 머신러닝에 관심있는 사람이라면 반드시! 알아야할 모델입니다. SVM은 특히 복잡한 분류 문제에 잘 들어맞으며 작거나 중간 크기의 데이터셋에 적합합니다. 이번 시간에는 SVM의 핵심 개념을 설명하고 사용 방법과 작동 원리를 살펴보도록 하겠습니다. 1. 선형 SVM 분류¶ SVM 분류기는 클래스 사이에 가장 폭이 넓은 도로를 찾는 것이라고 생각할 수 있습니다. 그래서 라지 마진 분류(large margin classification)라고 합니다. 도로 바깥쪽에..
[핸즈온 머신러닝2] Chapter 3. 분류

[핸즈온 머신러닝2] Chapter 3. 분류

2021.01.15
분류¶1. MNIST¶네. 또 MNIST입니다. 머신러닝 분야의 hello world죠? 사이킷런에서는 MNIST를 기본 데이터셋으로 제공하고 있습니다. 한번 MNIST 데이터셋을 다운받아서 분류에 대해서 같이 공부해봅시다. In [1]: import warnings warnings.filterwarnings(action="ignore") In [2]: from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784') mnist.data.shape, mnist.target.shape Out[2]: ((70000, 784), (70000,)) In [3]: X, y = mnist.data, mnist.target print..
[핸즈온 머신러닝2] Chaper 2. 머신러닝 프로젝트 처음부터 끝까지

[핸즈온 머신러닝2] Chaper 2. 머신러닝 프로젝트 처음부터 끝까지

2021.01.13
Chapter 2. 머신러닝 프로젝트 처음부터 끝까지¶이번 시간에는 실제 데이터로 작업해봅시다. 오늘의 할 일은 바로 캘리포니아 인구조사 데이터를 사용해 캘리포니아의 주택 가격 모델을 만드는 것입니다. 이번 시간에서 사용하는 데이터는 캘리포니아의 블록 그룹마다 인구, 중간 소득, 중간 주택 가격 등을 담고 있습니다. 블록 그룹은 미국 인구조사국에서 샘플 데이터를 발표하는 데 사용하는 최소한의 지리적 단위입니다. 이 데이터로 모델을 학습시켜서 다른 측정 데이터가 주어졌을 때 구역의 중간 주택 가격을 예측해봅시다! 1. 데이터 불러오기¶아래 코드는 데이터를 추출하는 함수입니다. In [1]: import os import tarfile from six.moves import urllib DOWNLOAD_RO..
  • 최신
    • 1
  • 다음

정보

butter_shower 블로그의 첫 페이지로 이동

butter_shower

  • butter_shower의 첫 페이지로 이동

검색

메뉴

  • All Categories
  • About Me
  • Guest Book

카테고리

  • 전체보기 (223)
    • 💫 주인장 이야기 (17)
    • 🌱 와글와글뻘글 (27)
    • IT Trends (11)
    • 주인장 일상 (0)
    • 📒 내 마음대로 독서 서평 (12)
    • 머신러닝 꿈나무 (30)
      • 기본 개념 (6)
      • Hands-on! (5)
      • Paper Review (5)
      • 캐린이의 Kaggle (1)
    • 알고리즘 Algorithm (33)
      • PS (8)
    • Computer Engineering (75)
      • Python (8)
      • Cloud Computing (9)
      • C (9)
      • C++ (0)
      • Java (6)
      • Django 장고 (4)
      • 임베디드 시스템 (10)
      • 병렬 처리(Parallel Processing) (9)
      • 데이터 통신 Data communication (4)
      • 유닉스 시스템 (Unix System) (3)
      • GitHub (1)
      • 마이크로 프로세서 (micro processor) (1)
      • 데이터 마이닝 (1)
    • Error Note 🚨 (3)
    • 영어 공부 (6)
      • Live Academy (6)
    • HOBBY (2)
      • Film Log (2)

최근 글

정보

_rian의 butter_shower

butter_shower

_rian

나의 외부 링크

  • Github
  • Facebook
  • Instagram
  • LinkedIn
  • Twitter

블로그 구독하기

  • 구독하기
  • RSS 피드

방문자

  • 전체 방문자
  • 오늘
  • 어제

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
Powered by Tistory / AXZ. © _rian. Designed by Fraccino.

티스토리툴바