[빅데이터기초] 스파크란?
2021.11.13
스파크란? 아파치 스파크는 마태자하리아가 UC 버클리에서 박사과정 논문의 일부로 개발한 강력한 오픈소스 처리 엔진입니다. 스파크는 오픈소스 분산 쿼리 및 처리 엔진으로, 유연성과 맵리듀스에 대한 확장성을 훨씬 빠른 속도로 제공하고 있습니다. 데이터가 메모리에 저장되어있을 경우에는 하둡보다 100배 빠르며, 디스크에 저장되어 있을 때에는 10배 빠릅니다. 스파크는 데이터를 읽고, 변형하고, 합계를 낼 수 있으며 복잡한 통계 모델들을 쉽게 학습하고 배포할 수 있다는 특징이 있습니다. 스파크 API는 자바, 스칼라, 파이썬, R, SQL을 이용해 접근할 수 있습니다. 어플리케이션을 빌드하는데 쓰일수도 있고, 여러 어플리케이션을 라이브러리로 묶어서 클러스터에 배포할수도 있으며, 파이썬 노트북을 통해 대화식으로 ..