#9. 빅데이터를 도입하기 위해 준비해야 하는 것들


기술이 아닌 사업 중심의 빅데이터를 도입하고 설계해야 한다

기업에서 빅데이터를 도입하기 위해서는 먼저 어느 사업에 빅데이터가 필요한지 정의해야 한다. 필요에 의해 기술을 도입해야지, 기술을 도입하기 위해 필요를 찾는 것은 앞뒤가 맞지 않는다.

안타깝게도 현재 빅데이터가 유행하면서 ‘우리 회사도 빅데이터를 해야 하는 것 아니냐’며 필요보다 기술이 먼저 고려되는 경우가 생기고 있다. 기술만을 고려한다면 어느 사업에 사용할지 결정하지 못하고 검토만 하다가 끝날 수 있다.

기술 이전에 사업을 분명히 해야 한다. 좀 더 정교한 마케팅을 하고 싶었지만 한계가 있었던 곳, 고객의 요구사항을 좀 더 상품에 반영하고 싶었던 곳, 적기에 생산과 물류를 효율화 하고 싶었던 곳에 빅데이터를 적용한 사업 모델을 만들어 보자. 과거에는 불가능 했던 영역에서 빅데이터 덕분에 혁신적인 사업 모델이 가능한 곳이 생길 것이다.


빅데이터를 활용한 사업 모델이 만들어졌다면 다음으로는 사업 모델에 적합한 설계가 필요하다.

즉, 사업 모델을 구현하는데 필요한 데이터 로직과 알고리즘을 설계해야 한다. 많은 경우에 정교한 알고리즘은 빅데이터 분석에 도움이 된다. 하지만, 정교한 알고리즘보다 데이터의 처리 속도와 확장성이 중요한 사업이 있을 수 있다.

예를 들면 넷플릭스(Netflix)는 사업이 성장하며 늘어나는 데이터도 문제였지만, 복잡한 알고리즘이 더 큰 문제였다. 알고리즘을 단순화하고 늘어나는 데이터를 처리하게 되면서 문제를 해결할 수 있었다. 따라서 사업 모델에 적합한 알고리즘을 설계하는 것이 중요한 것을 알 수 있다.



빅데이터를 수집, 저장/관리, 처리, 분석, 시각화하는

플랫폼을 구축해야 한다


사업 모델에 적합한 알고리즘과 데이터 로직을 설계한 후에는 플랫폼을 구축해야 한다. 아래 그림은 빅데이터 플랫폼 및 주요 구성요소들을 나타내고 있다. 분산 컴퓨팅을 중심으로 하는 컴퓨팅 인프라 위에 빅데이터 플랫폼을 구축한다.

주요 구성 요소는 데이터 수집, 저장/관리, 처리, 분석, 시각화이다. 데이터 수집은 주로 자체적으로 보유한 내부 파일 시스템, 데이터베이스, 시스템 센서 등을 통해 ETL(Extraction, Transformation, Loading)방법과 크롤링 엔진(Crawling Engine)으로 수집한다.



빅데이터 플랫폼 및 주요 구성 요소


수집한 데이터로부터 지식을 추출하려면 효과적으로 저장/관리할 수 있어야 한다. 데이터의 종류가 다양해지면서 정형 데이터를 위한 기존의 관계형 모델로는 대응이 어려워졌다. 또한 데이터 양이 커지면서 하나의 서버(노드) 능력을 최대화시키는 자체증설(scale-up) 방법만으로 부족하다.

여러 서버(노드)를 사용하여 용량과 속도를 늘리는 분산확장(scale-out) 기술이 적합하며 대표적인 기술이 분산 파일 시스템(DFS: Distributed File System)과 NoSQL(Not Only SQL)이다.

분산파일 시스템은 수많은 서버들에 데이터를 나누어 저장하고 관리하는 파일 시스템이다. 서버들에 저장된 데이터를 마치 내 컴퓨터의 하드디스크에 저장된 것처럼 쓸 수 있다. 하둡 분산 파일 시스템은 수천 대의 서버(노드)들을 연결하여 수 페타바이트급의 저장 용량을 제공한다.

NoSQL은 기존 RDBMS(Relational Database Management System)의 한계를 극복하고자 분산확장(scale-out)기술에 기반한 수평적 확장을 사용한다.


다양한 형태의 대용량 데이터를 처리하는 것은 매우 어려운 일이다. 따라서 분산/병렬 기술 방식을 사용하여 처리 효율을 높인다. 즉, 대용량 데이터를 여러 서버로 분산해 각 서버에서 나누어 처리한다. 그리고 이를 다시 모아 결과를 정리한다. 대표적인 기술이 구글과 하둡의 맵리듀스(Map Reduce)이다. 데이터를 분산 처리하는 맵(Map)이라는 기능과 분산 처리된 중간 결과를 모아서 정리하는 리듀스(Reduce)라는 기능으로 이루어졌다.

빅데이터 분석을 위해서는 다양한 통계처리, 데이터 마이닝, 오피니언 마이닝, 그래프 마이닝 등의 분석 방법을 적용해야 한다. R은 통계처리를 위한 오픈소스 패키지로 가장 대표적인 빅데이터 분석 기술이다. 다양한 분석 기술과 시각화 도구들을 제공한다.

시각화는 데이터 분석 결과를 전달하는 마지막 단계이다. 데이터의 해석 작업으로 정교한 모델과 시각화 도구가 필요하다. 특히 데이터 분석 결과를 시각화하여 이해하기 쉽게 전달하는 것이 중요하다. 직관적으로 알 수 있도록 산출된 결과와 지식을 다양한 그래프와 창의적인 방법으로 시각화한다.



빅데이터를 제대로 활용할 수 있는

거버넌스와 역량을 확보하자

지금까지 설명한 빅데이터 전체를 아우르는 거버넌스(governance)체계가 있어야 한다. 즉, 사업, 알고리즘, 플랫폼, 관리 체계를 명시적으로 연계하고 통합하여 합리적인 의사 결정을 가능하게 해주는 빅데이터 거버넌스가 필요하다. 이를 통해 전사적인 빅데이터 전략, 정책, 품질, 표준을 수립하고 데이터를 관리할 수 있어야 한다.

특히 데이터 품질이 중요한데 빅데이터 거버넌스를 통해 데이터 품질을 측정하고, 품질 관리 프로세스를 구축하는 등의 품질 관리 활동이 필요하다. 또한 빅데이터는 회사내 여러 부서가 관련되고 방대한 데이터를 추출, 분석, 시스템화하는 작업을 해야 하기 때문에 관리와 운영 통제가 필요하다.

빅데이터는 기술역량 이상으로 사업역량이 중요하다. 무엇을 분석할 것인지 분명한 목적의식과 통합적 사고 능력을 보유한 데이터 과학자가 핵심이다. 또한 빅데이터의 저장/관리, 처리, 분석 플랫폼을 개발하는 시스템 엔지니어가 필요하다.

직관적인 통찰과 풍부한 정보를 동시에 제공하는 인포그래픽스 아티스트의 지원도 있어야 한다. 빅데이터로 성과를 내려는 기업은 이렇듯 먼저 사업 및 기술 역량을 갖추어야 한다. 단지 기술 도입만으로 성과를 낼 수 있다는 생각은 버려야 한다. 빅데이터를 제대로 활용할 수 있는 인프라를 갖추고 전문인력을 확보한 기업만이 빅데이터를 통해 만족스러운 결과를 얻을 수 있다.

지금 시작하세요, 클라우다이크

ASD United States

Cloudike Inc.

548 Market St #8291

San Francisco, California 94104-5401

+1 (408) 757 0081

ASD Korea

경기 성남시 수정구 창업로 42,

​판교 제2테크노밸리 5층 529호

ASD KOREA Inc.

Phon. 1811-9881

FAX. 02-554-1887

ASD Russia

Gruzinskaya 37A Street,

Nizhniy Novgorod

+7-499-995-0533

© by Jacob, Joyce, Yunhee. Copyright 2019 ASD Korea All Rights Reserved.

  • 구글 플레이 - 클라우다이크
  • 네이버 블로그-클라우다이크
  • Facebook
  • YouTube
  • Instagram