이 영역을 누르면 첫 페이지로 이동
butter_shower 블로그의 첫 페이지로 이동

butter_shower

페이지 맨 위로 올라가기

butter_shower

머신러닝 꿈나무/기본 개념

  • butter_shower
토큰화(tokenize)란?

토큰화(tokenize)란?

2022.02.17
토큰화 토큰화란? 단위별 토큰화 1. 단어 단워 토큰화 2. 문자 단위 토큰화 3. 서브워드 단위 토큰화 바이트 페어 인코딩 (BPE, Byte Pair Encoding) 장점 BPE를 활용한 토큰화 절차 워드피스 (wordpiece) 토큰화 토큰화란? 문장을 토큰 시퀀스로 나누는 과정. 수행 대상에 따라 문자, 단어, 서브워드 등 세가지 방법 존재 단위별 토큰화 1. 단어 단위 토큰화 단어(어절) 단위 토큰화. 쉽게는 공백으로 구분 예시) 어제 카페 갔었다 -> 어제, 카페, 갔었, 다 어휘 집합의 크기는 10만개를 훌쩍 넘는 경우가 다반사. 2. 문자 단위 토큰화 단어 대신 문자 단위로 토큰화. 한글, 영어, 숫자 등을 다 포함해도 크기가 작음. 단점 : 의미 있는 단위가 되기 어렵다. 예시) 어제 ..
[pyspark/빅데이터기초] Parquet(파케이) 파일 형식이란?

[pyspark/빅데이터기초] Parquet(파케이) 파일 형식이란?

2021.11.17
파케이(parquet)이란 하둡에서 칼럼방식으로 저장하는 저장 포맷을 말합니다. 파케이는 프로그래밍 언어, 데이터 모델 혹은 데이터 처리 엔진과 독립적으로 엔진과 하둡 생태계에 속한 프로젝트에서 칼럼 방식으로 데이터를 효율적으로 저장하여 처리 성능을 비약적으로 향상시킬 수 있습니다. 열(Column)기반 압축을 하고있는데 이는 칼럼의 데이터가 연속된 구조로 저장되어 있다. Row 중심으로 저장되어있는 것과는 아래 사진을 보면 이해가 빠를 것 같습니다. 열을 기반으로 데이터를 처리하면 행 기반으로 압축했을때에 비해 데이터의 압축률이 더 높고, 필요한 열의 데이터만 읽어서 처리하는 것이 가능하기 때문에 데이터 처리에 들어가는 지원을 절약할 수 있습니다. 파케이는 하둡 에코시스템 안에서 언제든지 사용 가능한 ..
[빅데이터기초] 스파크란?

[빅데이터기초] 스파크란?

2021.11.13
스파크란? 아파치 스파크는 마태자하리아가 UC 버클리에서 박사과정 논문의 일부로 개발한 강력한 오픈소스 처리 엔진입니다. 스파크는 오픈소스 분산 쿼리 및 처리 엔진으로, 유연성과 맵리듀스에 대한 확장성을 훨씬 빠른 속도로 제공하고 있습니다. 데이터가 메모리에 저장되어있을 경우에는 하둡보다 100배 빠르며, 디스크에 저장되어 있을 때에는 10배 빠릅니다. 스파크는 데이터를 읽고, 변형하고, 합계를 낼 수 있으며 복잡한 통계 모델들을 쉽게 학습하고 배포할 수 있다는 특징이 있습니다. 스파크 API는 자바, 스칼라, 파이썬, R, SQL을 이용해 접근할 수 있습니다. 어플리케이션을 빌드하는데 쓰일수도 있고, 여러 어플리케이션을 라이브러리로 묶어서 클러스터에 배포할수도 있으며, 파이썬 노트북을 통해 대화식으로 ..
켄달타우란? - 비모수적 상관계수에 대해서

켄달타우란? - 비모수적 상관계수에 대해서

2021.05.24
켄달타우란? 순위 상관계수의 한 종류입니다. 두 변수들 간의 순위를 비교하여 연관성을 계산합니다. c.f > 상관계수 vs. 결정 계수 - 상관 계수 : 두 변수 간에 관계가 있는지만 확인 - 결정 계수 : 두 변수 간의 인과관계를 파악. 즉, 한 변수가 다른 변수에 영향을 미치는 지 확인 따라서 원인과 결과를 판단하기 위해서는 결정 계수를 사용하는 회귀 분석을 수행해야 합니다. 상관 계수의 해석 상관계수는 1에 가까울수록 양의 상관관계가 강하고 -1에 가까울수록 음의 상관 관계, 그리고 0에 가까울수록 상관관계가 없습니다. 상관계수는 이상치의 유무에 따라 값의 영향이 크니 이상치 처리가 중요합니다. 모수적 방법과 비모수적 방법 모수적 방법 (Parametic method) : 모수를 특정 분포로 가정하..
주성분 분석(PCA)이란?

주성분 분석(PCA)이란?

2021.03.03
오늘은 가장 인기있는 차원 축소 알고리즘인 주성분 분석(Principle Component Analysis, PCA)에 대해서 알아봅시다. 차원의 저주란? 많은 경우 머신러닝 문제는 훈련 샘플이 각각 수천, 혹은 수백만개의 특성을 가지고 있습니다. 이렇게 특성들이 많을 경우, 유의미한 특성들을 찾기가 어려울 뿐더러 훈련을 느리게 해 결과적으로 성능 저하를 일으키는 원인이 됩니다. 이런 문제를 "차원의 저주"(curse of dimensionality)라고 합니다. 이런 경우에는 당연하게도 차원을 줄여줘야 하는데, PCA는 그 중에서도 가장 많이 사용되는 차원 축소 알고리즘입니다. PCA에 대해서 자세히 알아봅시다! PCA (Principle Component Analysis), 주성분 분석 PCA는 말 ..
맥북에서 딥러닝 개발환경 구축하기 - 아나콘다, oh-my-zsh, iterm2, jupyter lab 테마 설정하기

맥북에서 딥러닝 개발환경 구축하기 - 아나콘다, oh-my-zsh, iterm2, jupyter lab 테마 설정하기

2021.01.13
안녕하세요? 오늘은 맥북에서 딥러닝 개발환경 구축하기를 해보겠습니다! 사실 iterm 설정하는 부분만 아니면 맥북이 아닌 어떤 운영체제도 적용가능할 것 같아요! 제가 최근에 회사에서 지급받은 PC는 맥북 프로 16인치 2019년도 모델인데, 개발환경 셋팅을 하는데에만 시간이 꽤 걸려서 ㅋㅋㅋㅋ 저와 같이 어려움을 겪는 분들에게 도움이 되고자~ 글을 작성합니다! 1. 아나콘다 설치하기 www.anaconda.com/products/individual/download-success Anaconda | Get Started Anaconda is the birthplace of Python data science. We are a movement of data scientists, data-driven ente..
  • 최신
    • 1
  • 다음

정보

butter_shower 블로그의 첫 페이지로 이동

butter_shower

  • butter_shower의 첫 페이지로 이동

검색

메뉴

  • All Categories
  • About Me
  • Guest Book

카테고리

  • 전체보기 (223)
    • 💫 주인장 이야기 (17)
    • 🌱 와글와글뻘글 (27)
    • IT Trends (11)
    • 주인장 일상 (0)
    • 📒 내 마음대로 독서 서평 (12)
    • 머신러닝 꿈나무 (30)
      • 기본 개념 (6)
      • Hands-on! (5)
      • Paper Review (5)
      • 캐린이의 Kaggle (1)
    • 알고리즘 Algorithm (33)
      • PS (8)
    • Computer Engineering (75)
      • Python (8)
      • Cloud Computing (9)
      • C (9)
      • C++ (0)
      • Java (6)
      • Django 장고 (4)
      • 임베디드 시스템 (10)
      • 병렬 처리(Parallel Processing) (9)
      • 데이터 통신 Data communication (4)
      • 유닉스 시스템 (Unix System) (3)
      • GitHub (1)
      • 마이크로 프로세서 (micro processor) (1)
      • 데이터 마이닝 (1)
    • Error Note 🚨 (3)
    • 영어 공부 (6)
      • Live Academy (6)
    • HOBBY (2)
      • Film Log (2)

최근 글

정보

_rian의 butter_shower

butter_shower

_rian

나의 외부 링크

  • Github
  • Facebook
  • Instagram
  • LinkedIn
  • Twitter

블로그 구독하기

  • 구독하기
  • RSS 피드

방문자

  • 전체 방문자
  • 오늘
  • 어제

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
Powered by Tistory / AXZ. © _rian. Designed by Fraccino.

티스토리툴바