ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 디스커버리 플랫폼(Data Discovery Platform - DDP)이란
    공부/데이터 2022. 7. 2. 21:26

    도서관에서 책을 찾으려면 책의 제목, 저자, 분류 기호 같은 정보를 모르면 원하는 책을 찾기가 힘듭니다. 이와 유사하게 분석가나 데이터를 찾고자 하는 팀원들은 내가 원하는 데이터가 어느 데이터베이스에 있는지 이 데이터는 무슨 의미인지 안내가 없고 흩어져 있으면 찾고 사용하기가 불편해집니다. 이러한 문제를 해결하기 위해 데이터의 위치나 의미를 보여주는 플랫폼이 데이터 디스커버리 플랫폼입니다.

    데이터 디스커버리 플랫폼이란?

    Data Discovery Platform(DDP)가 구축되어 있지 않다면, 백엔드에서 MSA로 서비스가 운영이 되고 분석가 및 엔지니어는 이러한 데이터를 활용하여 2차, 3차 가공물을 만들었다고 할 때 원하는 테이블이나 데이터를 찾고 활용하기가 힘들 것입니다.

    Data Discovery Platform(DDP)는 조직 내에서 필요한 데이터가 어디 있는지 빠르게 검색하고 어떤 건지 이해하고 사용 방법을 배우게 도와주는 플랫폼입니다.

    데이터 디스커버리 플랫폼의 필요성

    데이터의 위치 뿐만 아니라 데이터 권한은 누구에게 있으며 갱신 주기는 어떻게 되는지 등을 데이터 디스커버리 플랫폼으로 알려줄 수 있습니다.

    • 데이터가 무엇인지 알려줄 수 있음
    • 데이터 오너십과 권한 정보를 알려줄 수 있음
    • 데이터를 누가 만들었고 어떤 경로로 생성되었는지 알 수 있음
    • 데이터의 사용법, 어떤 컬럼과 연관이 있는지 등을 알 수 있음
    • 데이터의 갱신 주기, 지연, 기간 등을 알 수 있음

    데이터 디스커버리 플랫폼의 주요 기능

    테이블의 최신 명세

    어떤 테이블이 있고 어떤 컬럼들이 있는지 그리고 각각 어떤 의미를 가지 있는지 쉽게 검색창으로 검색하여 확인할 수 있는 기능이 존재합니다.

    테이블의 최신 통계와 샘플 데이터

    필요한 테이블들의 통계 정보를 쉽게 Data Discovery Platform에서 확인할 수 있습니다. 확인하고자 하는 테이블을 쿼리를 실행하지 않아도 테이블의 통계 정보와 샘플 데이터로 파악할 수 있어서 더 빠르고 정확하게 쿼리를 실행할 수 있습니다.

    테이블들의 여정(계보)

    Data Discovery Platform으로 테이블들의 여정을 빠르고 편하게 파악하여 분석할 수 있는 기능이 존재합니다. 찾고자 하는 테이블이 어디서 수집한 테이블인지 어떻게 가공해서 적재하는 지에 대해서도 한 플랫폼으로 확인할 수 있습니다. ETL 작업(Airflow 로 스케줄링 되는)의 경우, 스케줄/지연 여부등을 확인할 수 있습니다.

    데이터 디스커버리 플랫폼 오픈소스

    DataHub

    LinkedIn에서 만들었으며 yaml script로 구성을 진행합니다. UI가 깔끔하며 검색, 테이블 스키마, 오너십, 계보 기능을 지원합니다. 테이블 별 오너십을 유저, 그룹 기반으로 부여할 수 있고 유지보수가 간편합니다.

    Amundsen

    Lyft에서 만들었으며 python script로 구성을 진행합니다. Datahub에 비해 구성을 진행할 스크립트의 양이 많고 UI가 상대적으로 떨어집니다.

    보통 데이터 디스커버리 플랫폼을 구축한다면 위의 두 개가 가장 많이 사용됩니다. 그 중에서도 권한, 오너십 기능이 다양하고 사용성, UI 등 사용성 측면에서 더 좋은 Datahub을 많이 사용하고 있습니다.

    그 외의 오픈소스로는 Netflix의 Metacat, WeWork의 Marquez, Hortonworks의 Apache Atlas가 있습니다.

    레퍼런스

    https://tech.socarcorp.kr/data/2022/02/25/data-discovery-platform-01.html

    https://blog.banksalad.com/tech/the-starting-of-datadiscoveryplatform-era-in-banksalad/

    https://news.hada.io/topic?id=3247

    댓글