DW(Data Warehouse; 데이터 창고)? Data Lake!!
Google Cloud Summit 2019 행사를 보다 더 재밌게 즐기기 위해..
흥미로운 트랙들의 주제들을 한번 조사해보려고 한다!
DW(Data Warehouse; 데이터 창고)
전통적인 엔터프라이즈 IT 환경에서 '분석'이라는 것을 하기 위해서는 데이터웨어하우스(DW)라는 시스템이 필요했다. 데이터 창고(Data Warehouse)라는 이름에서 알 수 있듯 데이터를 저장해두는 것이 DW의 목적이다. 전사적자원관리(ERP), 고객관계관리(CRM), 공급망관리(SCM) 등 기업에서 활용되는 다양한 시스템에서 생성되는 데이터를 DW에 담아두고, 분석이 필요할 때 이 창고의 데이터를 대상으로 분석을 하자는 접근이다.
DW는 당연히 대부분의 기업이 가지고 있다. 비즈니스인텔리전트(BI)를 구현하기 위해서 DW는 필수적이기 때문이다.
DW를 위한 DB는 관계형 데이터베이터베이스다. ERP CRM SCM 등에서 생성되는 데이터가 구조적인 정형 데이터여서 관계형 DB가 효율적이었다.
그러나 세상은 변하고... 데이터는 이제 더이상 ERP, CRM, SCM 등만 그 대상이 아니다. IoT, SNS, VoC(Voice of Cumstmer), 웹사이트 클릭스트림 등 다양한 데이터가 분석 대상이 되었다. 기족에는 이런 데이터들은 버려지기 일쑤였지만, 4차 산업혁명이 이야기되는 현재는 이런 데이터에서 경쟁력이 생긴다. 인공지능이나 머신러닝을 활용하기 위해서도 이런 데이터는 중요하다.
Data Lake의 등장!
데이터 레이크는 데이터의 종류를 묻지도 따지지도 않고 저장하는 공간을 말한다. 즉, '다양한 형태의 원형(raw) 데이터들을 모은 저장소의 집합'이다. 기업에서 발생하는 데이터를 모아서 한 곳에 저장해두자는 접근법은 DW와 같지만, 대상으로 하는 데이터의 종류가 다르다. DW는 구조적 정형 데이터가 대상이지만, 데이터 레이크는 모든 데이터가 대상이다.
그렇지만 모든 데이터를 저장한다는 것은 쉬운 일이 아니다. 데이터는 기하급수적으로 늘어나는데 기업 내 데이터 센터는 아무래도 한정적일 수 밖에 없다. 실제로 데이터 준비(수집/정제/변환) 과정에서만 작업 시간의 대부분 (80%)이 소요된다. 하둡같은 기술이 등장하면서 빅데이터를 저장하는 것이 쉬워졌지만, 무한대로 하둡 노드를 늘릴 수도 없고 늘린다 해도 분석이 쉽지 않다.
이 때문에 클라우드에 데이터 레이크를 구축하는 것이 유리하다. 클라우드는 데이터가 늘어나는 대로 빠르게 대응할 수 있기 때문이다.
(그리고 Google Cloud Summit 트랙 중 하나가 GCP에서 데이터 레이크 만드는 법이다 꺅 설레~!)
데이터 레이크의 특징
기존 DW에 데이터를 담기 위해서는 데이터를 추출-변형-적재(ETL)이라는 과정을 거쳐야 했다. 구조가 다른 각기 다른 DB에서 나온 데이터이기 때문에 하나의 구조로 맞춰야하기 때문이다.
그러나 데이터 레이크는 이런 ETL과 같은 중간 과정이 필요없다. 다양한 원시 데이터를 저장해두고 있다가 분석을 할 때 필요한 형태로 데이터를 가공한다. 데이터를저장하는 시점이 아니라 분석하는 시점에 정의하는 것이다. 이때문에 즉시(ad-hoc) 분석이 가능하다.
대신 데이터 레이크에는 '카탈로그'라는 기능이 필요하다. 어떤 데이터가 어디에 저장되어 있는지 카탈로그를 만들어놓고, 분석이 필요할 때 그것을 보고 필요한 데이터가 있는 곳의 데이터에 접근하는 것이다. AWS는 글루(Glue)라는 이름의 카탈로그 서비스를 제공한다.
데이터 레이크에 저장된 데이터는 분석이 필요할 때 그에 맞는 방법으로 분석할 수 있다. 예를들어 전통적인 BI 툴로 분석을 하고자 한다면 DW에 데이터를 보낼 수 있다. Glue는 카탈로그뿐 아니라 ETL 기능도 하는 서비스다. 데이터레이크에 저장된 데이터를 Glue를 통해 DW로 보낼 수 있다.
이뿐 아니라 하둡과 같은 비정형 데이터를 분석할 때는 EMR(Elastic MapReduce)이라는 서비스를 이용하면 되고, ad-hoc 쿼리는 안테나라는 서비스로 처리할 수 있다. 퀵사이트(QuickSight)라는 시각화 툴, 세이지메이커(SageMaker)라는 머신러닝 플랫폼으로도 분석할 수 있다.
AI 기반 의사 결정 자동화를 위한 기반
AWS 레이크 포메이션, 델타 레이크, 하이브3에 이르기까지, 최근 업계의 움직임은 데이터 레이크가 모든 의사 결정 지원과 의사 결정 자동화 어플리케이션, 모든 트랜젝션 데이터 어플리케이션을 위한 거버넌스 허브가 되는 날이 다가오고 있음을 시사한다. 이러한 추세가 더 가속화 되기 위해서는 하이브 3, 델타 레이크와 같은 오픈 프로젝트가 업체와 사용자들 사이에서 더 폭넓은 지지를 확보해야 한다.
향후 "데이터 웨어하우징"은 비즈니스 인텔리전스를 위한 구조화된 데이터를 대상으로 관리되는 다중 도메인 저장소를 지칭하는 용어로 존속될 가능성이 높다. 그러나 기반이 되는 데이터 플랫폼은 클라우드 기반 인공 지능 파이프라인을 위한 핵심적인 데이터 거버넌스 기반을 제공하기 위해 계속 발전할 것이다.
Reference
https://byline.network/2018/07/5-17/
http://www.itworld.co.kr/news/125448
'머신러닝 꿈나무' 카테고리의 다른 글
[Python 데이터 분석 3대장] Numpy 라이브러리 (0) | 2020.08.04 |
---|---|
데이터의 성능을 높이는 방법 (0) | 2020.08.02 |
[Python 데이터 분석 3대장] 판다스(Pandas) (0) | 2020.01.13 |
하둡 에코시스템(Hadoop-Ecosystem)이란 (0) | 2019.11.10 |
하둡(Hadoop)이란? (0) | 2019.11.10 |
댓글
이 글 공유하기
다른 글
-
데이터의 성능을 높이는 방법
데이터의 성능을 높이는 방법
2020.08.02 -
[Python 데이터 분석 3대장] 판다스(Pandas)
[Python 데이터 분석 3대장] 판다스(Pandas)
2020.01.13 -
하둡 에코시스템(Hadoop-Ecosystem)이란
하둡 에코시스템(Hadoop-Ecosystem)이란
2019.11.10 -
하둡(Hadoop)이란?
하둡(Hadoop)이란?
2019.11.10