ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 패브릭(Data Fabric)이란?
    공부/데이터 2023. 7. 14. 01:55

    데이터 패브릭은 왜 나오게 됐는가?

    데이터 레이크는 모든 정형 및 비정형 데이터를 중앙 저장소에 저장할 수 있게 해주고, 실시간 스트리밍 기능과 데이터 처리 기능을 제공합니다. 이러한 기능으로 인해 데이터 레이크는 데이터 웨어하우스보다 더 유연한 성능을 제공하지만, 여전히 기업 내의 데이터 팀은 서로 다른 요구사항을 가진 비즈니스 내 여러 부서로부터 받은 임시 요청을 처리하는 데 어려움을 겪고 있습니다.

    데이터 팀은 데이터 레이크에서 다양한 도메인을 위한 분석 파이프라인을 준비하여 도메인 팀의 사용자가 데이터를 사용할 수 있도록 해야 합니다. 그러나 데이터를 수집하고 정제하는 것은 부담스러울 수 있습니다. 또한 다양한 도메인에서 제공되는 데이터의 특징을 이해하기 위해 광범위한 분석이 필요하며, 조직적으로 고립돼 있어 데이터 팀과 비즈니스 팀 간의 소통이 어려울 수 있습니다.

    데이터를 효과적으로 사용하기 위해서는 정확한 의미 체계를 활용하여 데이터를 성숙시켜야 합니다. 또한 데이터는 본래 위치에서 액세스할 수 있어야 하며, 다른 도메인의 사용자가 활용할 수 있도록 최신 상태로 유지되어야 합니다.

    가트너에 따르면, 이러한 변화를 이루기 위한 핵심은 여러 데이터 관리 기술이 작동하는 디자인 개념인 '데이터 패브릭(Data Fabric)'입니다. 이 개념은 분산 네트워크 환경에서 원활한 데이터 액세스 및 공유를 지원합니다.

    데이터 패브릭이란?

    데이터 패브릭은 보관 위치에 관계없이 다양한 데이터 소스에서 데이터를 수집하고 통합하여 실시간으로 처리, 분석, 공유할 수 있도록 하는 플랫폼입니다. 이를 통해 기업은 데이터를 더 잘 활용하고, 의사 결정을 더 빠르고 효율적으로 내릴 수 있습니다. 즉, 기존 기술과 관계없이 데이터에 보편적으로 액세스할 수 있도록 추상화 수준을 제공합니다. 다양한 데이터 소스와 데이터 형식을 지원하며, 데이터를 통합하여 통일된 형식으로 제공합니다. 이를 통해 데이터의 일관성과 신뢰성을 확보하고, 데이터 간의 상호 연결성을 강화할 수 있습니다. 또한, 실시간 데이터 처리와 분석을 지원하여 실시간으로 변화하는 데이터를 신속하게 처리할 수 있습니다.

    데이터 패브릭은 다양한 기술과 도구를 활용하여 구현될 수 있습니다. 이에는 대용량 데이터 처리를 위한 분산 컴퓨팅 기술, 데이터 통합을 위한 ETL(Extract, Transform, Load) 도구, 데이터 저장과 관리를 위한 데이터베이스 시스템 등이 포함될 수 있습니다. 또한 클라우드 기반으로 구현될 수도 있으며, 클라우드 서비스 제공 업체들이 데이터 패브릭 솔루션을 제공하기도 합니다.

    데이터 패브릭은 데이터를 전략적 자산으로 활용할 수 있도록 지원하는 중요한 개념입니다. 데이터의 양과 다양성이 계속해서 증가하는 현대에서 데이터 패브릭은 기업이 데이터를 효과적으로 관리하고 활용하는데 도움을 주는 핵심적인 기술입니다.

    데이터 패브릭은 위에서 설명한 것과 같이 다양한 형식과 여러 데이터 저장소(RDB, 데이터 웨어하우스, 데이터 레이크, 클라우드 서비스의 데이터, 등)를 연결하여 데이터 이동성을 제공하고 데이터를 분산 처리하여 높은 처리 성능과 확장성을 제공합니다. 또한 다양한 데이터 소스로부터 수집되는 데이터의 품질을 유지하고 실시간 데이터에 대한 정확성을 보장하며 다양한 데이터 포맷에 대한 지원을 통해 데이터 분석 및 검색을 더욱 쉽게 수행합니다. 이를 위해 데이터 카탈로그, 데이터 거버넌스, 데이터 통합, 데이터 파이프라인, 데이터 오케스트레이션, 데이터 애널리틱스 등과 같은 기능들이 필수입니다.

    예를 들어, 중앙 데이터 레이크가 있고 데이터 수집에 AWS 서비스를 사용하고 있고 데이터 변환을 위한 레거시 인프라도 있다고 한다면 데이터 패브릭은 두 시스템을 통합하고 기존 파이프라인을 변경하지 않으면서 통합 보기를 제공합니다.

    장점

    • 기업은 데이터 패브릭을 사용하여 데이터 가용성과 접근성을 높여 실시간 데이터를 기반으로 더 빠르고 정보에 기반한 선택을 할 수 있음
    • 데이터 패브릭은 온프레미스 및 클라우드 기반 데이터를 비롯한 여러 소스의 데이터를 원활하게 통합하여 막대한 양의 데이터를 관리하고 분석하는 데 사용
    • 기업은 데이터 패브릭을 사용하여 중앙 집중식 데이터 관리 플랫폼을 구축하고 많은 팀과 부서 간의 실시간 데이터 교환 및 협업을 촉진할 수 있음
    • 데이터 패브릭에서 제공하는 데이터 거버넌스 및 보안 기능은 회사가 데이터 개인 정보 보호 및 규정 준수를 유지하는 데 도움이 됨
    • 데이터 패브릭은 데이터 사일로를 제거하여 더 많은 비용과 중복 노력을 절약할 수 있으며, 이는 생산성과 효율성을 향상
    • 기업은 데이터 패브릭을 사용하여 여러 데이터 소스에서 발생할 수 있는 데이터 불일치 및 부정확성을 줄이고 신뢰할 수 있는 단일 소스를 구축
    • 데이터 패브릭의 유연성 덕분에 기업은 데이터 아키텍처를 필요에 따라 확장할 수 있으므로 성장과 확장이 가능
    • 기업은 데이터 패브릭을 사용하여 데이터 워크플로우를 자동화하여 데이터 정확성을 개선하고 수동 개입이 필요한 경우를 줄일 수 있음
    • 데이터 패브릭의 유연성으로 인해 기업은 다양한 도구와 플랫폼을 사용하여 데이터 관리 및 분석 요구 사항을 충족시킬 수 있음

    단점

    • 데이터 패브릭을 제자리에 배치하는 프로세스는 복잡하고 시간이 많이 걸리며, 리소스와 지식 모두에 상당한 노력이 필요
    • 데이터 패브릭을 설치하는 초기 비용은 시스템을 설정하고 유지 관리하는 데 필요한 직원, 소프트웨어 및 하드웨어 가격을 고려할 때 매우 비싸게 들 수 있음
    • 기존 데이터 관리 및 분석 절차는 데이터 패브릭을 사용하기 위해 크게 변경해야 할 수도 있음
      • 이는 기업 운영에 방해가 될 수 있고 변화에 대한 저항을 만들 수도 있음
    • 데이터 패브릭의 복잡성으로 인해 기업은 사용자 지원 및 교육에 추가 비용을 지출해야 할 수도 있음
      • 이로 인해 사용자가 이를 수용하고 교육을 받는 것이 어려울 수 있음
    • 데이터 소스와 형식이 많은 기업은 데이터 패브릭을 사용하기 위해 데이터 구조를 표준화해야 함
    • 데이터 패브릭은 레거시 시스템과 효과적으로 인터페이스하지 않을 수 있으므로 새로운 시스템 개발 또는 현재 시스템 업그레이드에 대한 기업 투자가 필요
    • 데이터 패브릭은 보안 위반 및 데이터 개인 정보 보호 문제에 취약할 수 있으므로 기업에서 데이터를 보호하기 위해 강력한 보안 조치를 구현해야 함
    • 데이터 패브릭은 모든 데이터 형식 또는 모든 유형의 데이터 분석을 지원하지 않을 수 있으므로 모든 형태의 데이터 또는 분석 사용 사례에 적합하지 않을 수 있음

    데이터 패브릭과 데이터 레이크 차이점

    데이터 패브릭과 데이터 레이크는 둘 다 데이터 관리와 분석을 위한 개념이지만 목적과 구조에서 차이가 있습니다.

    목적

    데이터 패브릭

    데이터 패브릭은 다양한 데이터 소스를 통합하여 실시간으로 처리, 분석, 공유하기 위한 플랫폼입니다. 주요 목적은 데이터의 일관성, 신뢰성, 상호 연결성을 강화하고, 데이터를 빠르게 활용하여 의사 결정을 지원하는 것입니다.

    데이터 레이크

    데이터 레이크는 다양한 유형과 형식의 대량의 원시 데이터를 중앙 저장소에 저장하는 것을 목적으로 합니다. 데이터 레이크는 데이터를 수집하고 저장하는 것에 초점을 맞추며, 데이터의 정제와 가공은 나중에 필요할 때 수행됩니다. 데이터 레이크는 유연한 데이터 접근과 분석을 가능하게 하여 비구조적인 데이터와 실시간 데이터 처리에 유리한 환경을 제공합니다.

    구조

    데이터 패브릭

    데이터 패브릭은 데이터를 통합하여 통일된 형식으로 제공합니다. 이를 위해 데이터의 스키마를 정의하고, 데이터를 통합하는 프로세스를 구축합니다. 데이터 패브릭은 일반적으로 정형 데이터를 다루는 경우가 많습니다.

    데이터 레이크

    데이터 레이크는 원시 데이터를 저장하기 위한 중앙화된 저장소입니다. 데이터 레이크는 비정형 데이터, 반정형 데이터, 정형 데이터 등 다양한 형태의 데이터를 저장합니다. 데이터 레이크는 데이터의 원본 형태를 보존하고, 필요에 따라 데이터를 가공하거나 스키마를 변경할 수 있습니다.

    가공 및 분석

    데이터 패브릭

    데이터 패브릭은 데이터를 실시간으로 처리하고 분석할 수 있는 기능을 제공합니다. 데이터를 통합한 후 데이터베이스 시스템이나 분산 컴퓨팅 기술을 활용하여 실시간으로 데이터를 처리하고 분석 결과를 생성합니다.

    데이터 레이크

    데이터 레이크는 저장된 원시 데이터에 대한 가공과 분석은 필요에 따라 수행됩니다. 데이터 레이크는 데이터 과학자나 분석가들이 필요한 형태로 데이터를 추출하여 가공하고, 분석 및 모델링 작업을 수행할 수 있는 유연한 환경을 제공합니다.

     

    요약하면, 데이터 패브릭은 다양한 데이터 소스를 실시간으로 통합하여 처리 및 분석하는 플랫폼이며, 데이터 레이크는 대량의 원시 데이터를 중앙 저장소에 저장하여 유연한 데이터 접근과 분석을 가능하게 하는 환경을 제공합니다.

    댓글