0. 데이터 프레임 안의 내용 보기 (1) 상위 N개만 출력 - show() # 상위 20개만 출력 df.show() # 상위 n개 출력 df.show(n) (2) 전체 데이터 출력 - collect() df.collect() 1. 특정 칼럼 선택해 출력하기 - select() import pyspark.sql.functions as F # 특정 칼럼만 보기 df.select(F.col('col1'), F.col('col2'), F.col('col3')).show() 2. 정렬 - orderBy() df.orderBy('칼럼명', ascending=True) # default : True, 오름차순 3. 상위 n개만 커트 df = df.limit(1000) # 상위 1000개 데이터로 갱신 4. 칼럼을 ..
Chapter 5. 서포트 벡터 머신¶SVM (Support Vector Machine) 서포트 벡터머신은 매우 강력하고 선형이나 비선형 분류, 회귀, 이상치탐색에도 사용할 수 있는 다목적 머신러닝 모델입니다. 머신러닝에서 가장 인기있는 모델에 속하고 머신러닝에 관심있는 사람이라면 반드시! 알아야할 모델입니다. SVM은 특히 복잡한 분류 문제에 잘 들어맞으며 작거나 중간 크기의 데이터셋에 적합합니다. 이번 시간에는 SVM의 핵심 개념을 설명하고 사용 방법과 작동 원리를 살펴보도록 하겠습니다. 1. 선형 SVM 분류¶ SVM 분류기는 클래스 사이에 가장 폭이 넓은 도로를 찾는 것이라고 생각할 수 있습니다. 그래서 라지 마진 분류(large margin classification)라고 합니다. 도로 바깥쪽에..
분류¶1. MNIST¶네. 또 MNIST입니다. 머신러닝 분야의 hello world죠? 사이킷런에서는 MNIST를 기본 데이터셋으로 제공하고 있습니다. 한번 MNIST 데이터셋을 다운받아서 분류에 대해서 같이 공부해봅시다. In [1]: import warnings warnings.filterwarnings(action="ignore") In [2]: from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784') mnist.data.shape, mnist.target.shape Out[2]: ((70000, 784), (70000,)) In [3]: X, y = mnist.data, mnist.target print..
Chapter 2. 머신러닝 프로젝트 처음부터 끝까지¶이번 시간에는 실제 데이터로 작업해봅시다. 오늘의 할 일은 바로 캘리포니아 인구조사 데이터를 사용해 캘리포니아의 주택 가격 모델을 만드는 것입니다. 이번 시간에서 사용하는 데이터는 캘리포니아의 블록 그룹마다 인구, 중간 소득, 중간 주택 가격 등을 담고 있습니다. 블록 그룹은 미국 인구조사국에서 샘플 데이터를 발표하는 데 사용하는 최소한의 지리적 단위입니다. 이 데이터로 모델을 학습시켜서 다른 측정 데이터가 주어졌을 때 구역의 중간 주택 가격을 예측해봅시다! 1. 데이터 불러오기¶아래 코드는 데이터를 추출하는 함수입니다. In [1]: import os import tarfile from six.moves import urllib DOWNLOAD_RO..