Google Cloud Dataprep

Google Cloud Dataprep

Google과 Trifacta (Data wangling 업체) 가 콜라보로 만든 데이터 전처리 제품

  • 2017년 3월 Google Cloud Next Conference 에서 처음 공개
  • 2017년 9월 Beta version 공개

일단 전처리란 무엇인가?

데이터 분석을 하기 위해서는 다양한 소스로부터 데이터를 추출, 추출된 raw data를 변환/가공하여 적재하는 과정 (ETL) 이 필요

image 분석할 때 약 80%의 시간을 전처리에 사용.

image2 76%가 업무 중 가장 노잼인 과정을 전처리라고 함

결론: 전처리는 노잼 & 시간 많이듬 (=노가다) 빠르고, 쉽게 할 수 없을까 하는 Needs에서 시작. (Fobes)


다른 전처리 툴과 차이?

Trifacta Wrangler
100MB 이하만 무료
OpenRefine (오픈소스)
Wrangler 대비 구림

당연하지만 Google Cloud 와 연동 (BigQuery, DataStorage) & 사용하기 쉬움. (coding 에 익숙하지 않아도)

(참고: AWS에는 Glue와 유사하다고 함)

기타 특장점은 여기서 확인