ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 메시(Data Mesh)란?
    공부/데이터 2023. 7. 16. 16:38

    데이터 메시는 왜 나오게 됐는가?

    데이터 메시는 기존의 중앙 집중식 데이터 아키텍처의 한계와 어려움을 극복하기 위해 등장했습니다. 이는 기업이 다양한 소스에서 대량의 데이터를 다루고 분석해야 하는 상황에서 유연성과 효율성을 높이기 위한 것입니다.

    기존 중앙 집중식 데이터의 어려움은 다음과 같습니다.

    • 사일로화된 데이터 팀: 중앙의 데이터 팀에 있는 전문 데이터 사이언티스트와 엔지니어는 비즈니스와 도메인에 대한 지식이 부족합니다. 이러한 사실로 인해, 데이터 팀은 목적을 명확하게 이해하지 못한 채로 어쨌든 다양한 운영 및 분석 요구 사항에 맞는 데이터를 제공해야 합니다. 이는 데이터의 정확성과 유용성에 부정적인 영향을 미칠 수 있습니다.
    • 느린 변경 응답성: 데이터 엔지니어는 일반적으로 데이터를 수집하여 중앙의 데이터 레이크에 저장하기 전에, 여러 단계에 걸쳐 데이터를 변환하는 파이프라인을 구현합니다. 변경 요청이 있으면 전체 파이프라인을 수정해야 합니다. 중앙의 팀은 비즈니스 도메인에 대한 지식이 부족한 상태로, 서로 상충하는 우선 과제를 관리하면서 이러한 변경을 수행해야 합니다. 이는 변경 응답성이 느려지고, 데이터 품질 관리가 어려워질 수 있는 원인이 됩니다.
    • 낮은 정확도: 사업부는 데이터 소비자 및 중앙의 데이터 팀과 단절되어 있습니다. 따라서 의미 있고, 정확하고, 유용한 데이터를 제공할 동기가 부족합니다. 이는 비즈니스 인사들이 데이터와 관련된 의사결정을 내릴 때, 부정확한 정보를 기반으로 결정을 내리는 경우가 발생할 수 있습니다.

    이러한 어려움들은 중앙 집중식 데이터 아키텍처가 가지는 한계로 인해 발생하며, 데이터 메시)와 같은 분산 데이터 아키텍처를 적용하는 것이 해결책이 될 수 있습니다. 데이터 메시는 데이터를 독립적인 도메인으로 간주하고 독립적인 도메인을 지원하기 위해 다양한 기술과 원칙을 사용합니다. 각 도메인 팀이 자율적으로 자신의 데이터를 소유하고 관리하며, 데이터의 정의, 품질, 보안 등을 도메인 팀이 관리합니다. 또한, 데이터 메시는 데이터의 분산과 협력에 초점을 두며, 조직 내에서 데이터 문화를 구축하고 도메인 팀 간의 협력을 강조합니다. 이러한 접근 방식은 조직의 데이터 관리와 분석의 복잡성을 완화하고 효율성을 높일 수 있습니다.

    데이터 메시란?

    데이터 메시는 데이터 분석과 관리를 위한 새로운 방법입니다. 기존의 중앙 집중식 데이터 아키텍처와는 달리, 데이터 메시는 분산된 형태로 데이터를 관리하고 분석합니다.

    데이터 메시의 핵심 아이디어는 데이터를 독립적인 도메인으로 다루는 것입니다. 각 도메인이 자체적으로 데이터를 소유하고 관리합니다. 조직은 여러 사업부에서 분석을 위해 필요한 여러 데이터 소스를 통합해야 합니다. 데이터 메시 아키텍처는 서로 다른 데이터 소스를 효과적으로 통합하고, 중앙에서 관리되는 데이터 공유 및 거버넌스 지침을 통해 연결합니다. 업무 부서에서는 공유 데이터에 액세스하는 방법, 액세스하는 사람 및 액세스하는 형식을 제어할 수 있습니다. 데이터 메시는 아키텍처의 복잡성을 증가시키지만 데이터 액세스, 보안 및 확장성을 효과적으로 개선하여 효율성을 높입니다.

    데이터 메시는 독립적인 도메인을 지원하기 위해 다양한 기술과 원칙을 사용합니다. 중요한 개념은 다음과 같습니다.

    1. 도메인 데이터 소유권: 각 도메인은 자신의 데이터를 소유하고 관리합니다. 도메인 팀이 데이터 책임을 지니며, 데이터의 정의, 품질, 보안 등을 관리합니다.
    2. 도메인 분산: 데이터 메시는 데이터를 분산된 형태로 유지합니다. 각 도메인에서 필요한 데이터는 도메인 내에서 관리되고 저장됩니다.
    3. 도메인 자율성: 각 도메인은 자율적으로 데이터를 관리하며, 필요한 경우 다른 도메인과 협력합니다. 도메인 팀이 데이터 수명 주기, 액세스 권한 및 정책을 결정합니다.
    4. 도메인 문화: 데이터 메시를 구현하기 위해 조직 내에서 데이터 문화를 구축해야 합니다. 데이터에 대한 책임과 역할을 명확히하고, 데이터 지향적인 문화를 조성해야 합니다.

    장점

    1. 각 도메인이 데이터를 자체적으로 소유하고 관리함으로써 도메인 팀이 데이터 책임을 가지게 됩니다. 이는 데이터 품질, 정의, 보안 등을 도메인 팀이 주도적으로 관리할 수 있게 하며, 전체 조직의 데이터 품질 향상에 기여합니다.
    2. 도메인 팀이 필요에 따라 자율적으로 데이터를 관리하고 협력하는 방식을 채택하여, 조직의 유연성과 확장성을 높여 새로운 비즈니스 요구를 빠르게 수용하고 데이터 분석을 진행할 수 있게 합니다.
    3. 조직 내에서 데이터 문화를 구축하는 데 중점을 둡니다. 도메인 팀이 데이터에 대한 책임과 역할을 명확히하고 데이터 지향적인 문화를 조성함으로써 조직 전체적으로 데이터에 대한 이해와 활용을 향상시킬 수 있습니다.
    4. 분산된 데이터 형태를 채택하여 데이터 접근 및 처리의 성능을 향상시킬 수 있습니다. 도메인 팀이 자체적으로 데이터를 관리하고 최적화할 수 있기 때문에 데이터의 로컬 액세스 및 처리 속도가 향상될 수 있습니다.

    단점

    1. 조직 문화와 변화 관리: 조직 내에서 데이터 문화를 변경하고 도메인 팀 간의 협력을 강화해야 합니다. 이를 위해 조직 구조와 역할 간 충돌이 발생할 수 있습니다.
    2. 복잡성과 중복: 데이터 메시 구현으로 데이터가 분산되고 도메인 팀이 자율성을 가지게 됩니다. 이는 데이터 관리와 통합에 중복성과 복잡성을 초래할 수 있습니다. 이를 관리하기 위해서는 좋은 설계와 표준화된 접근 방식이 필요합니다.
    3. 기술적인 도전: 적절한 기술과 도구의 선택과 구축이 필요합니다. 도메인 팀이 데이터를 관리하고 협력하는 방식은 기존의 중앙 집중식 아키텍처와 다른 기술적 요구사항을 가질 수 있습니다.
    4. 초기 투자 및 학습 곡선: 초기 투자와 조직 내에서의 학습 곡선이 필요합니다. 데이터 메시의 원리와 구현 방법에 대한 이해와 훈련이 필요하며, 초기적인 변화를 위한 투자가 필요할 수 있습니다.

    데이터 메시와 데이터 페브릭의 차이

    데이터 메시와 데이터 페브릭은 둘 다 데이터 관리와 분석을 위한 접근 방식이지만, 목표와 구현 방법에서 차이가 있습니다.

    데이터 메시는 데이터를 독립적인 도메인으로 간주하고, 각 도메인이 자체적으로 데이터를 소유하고 관리하는 것을 강조합니다. 데이터 메시는 분산된 형태로 데이터를 유지하며, 각 도메인은 데이터의 책임과 정책을 자율적으로 결정합니다. 데이터 메시는 조직 내에서 데이터 문화를 구축하고, 도메인 팀 간의 협력을 강조합니다.

    반면, 데이터 페브릭은 데이터 통합과 일관성을 강조하는 접근 방식입니다. 데이터 페브릭은 중앙 집중식 아키텍처에 기반을 두고 있으며, 다양한 데이터 원천과 데이터 소비자 간의 통합을 위한 플랫폼이나 프레임워크를 제공합니다. 데이터 페브릭은 데이터의 흐름과 일관성을 관리하여 데이터를 신뢰할 수 있는 상태로 유지하고, 데이터 품질 관리, 보안, 메타데이터 관리 등을 지원합니다.

    요약하자면, 데이터 메시는 도메인의 독립성과 자율성을 강조하며, 데이터의 분산과 협력에 초점을 둡니다. 데이터 페브릭은 데이터의 일관성과 통합을 강조하며, 중앙 집중식 아키텍처를 기반으로 다양한 데이터 관리 기능을 제공합니다. 선택은 구체적인 상황과 조직의 요구에 따라 달라질 수 있습니다.

    댓글