공부/데이터
-
OLAP 분석 데이터베이스 완전 비교 가이드공부/데이터 2026. 4. 29. 22:43
1. OLAP DB 분류 개요1.1 데이터 저장 방식에 따른 분류분류 설명 대표 제품자체 저장형 OLAP데이터를 직접 저장·관리, 전용 스토리지 엔진 보유Druid, Pinot, ClickHouse, StarRocks, DorisMPP 쿼리 엔진형데이터 비저장, 외부 스토리지(HDFS, S3 등)에 쿼리만 실행Trino, Presto, Spark SQL, Impala임베디드/경량형프로세스 내 실행, 서버리스DuckDB, chDB스트리밍 DB형실시간 스트림 처리 + OLAP 쿼리 통합RisingWave1.2 Apache Impala의 분류Apache Impala는 MPP 쿼리 엔진 계열에 속합니다.데이터를 직접 저장하지 않음 → HDFS, HBase, S3 등 외부 스토리지에 직접 쿼리Hadoop 에코시스..
-
레이크 하우스란공부/데이터 2026. 4. 27. 21:38
레이크하우스 오픈 테이블 포맷 완전 비교Delta Lake · Apache Iceberg · Apache Hudi · Apache Paimon · DuckLake(2026) 포맷의 메타데이터 구조, 카탈로그 아키텍처, 심화 기술 특징을 비교합니다. Apache XTable(상호운용 레이어)도 별도 정리합니다.레이크하우스란?레이크하우스(Lakehouse) = 데이터 레이크의 유연성·비용 효율성 + 데이터 웨어하우스의 ACID 트랜잭션·스키마 관리·거버넌스를 오픈 파일 포맷 위에서 직접 제공하는 통합 아키텍처전통 2계층 아키텍처의 문제구분 데이터 레이크 데이터 웨어하우스장점정형·비정형 대량 저장, 비용 효율적ACID 트랜잭션, 스키마 강제, 우수한 쿼리 성능단점품질·일관성·거버넌스 관리 어려움ETL 필수, ..
-
중앙 메타스토어란공부/데이터 2026. 4. 26. 23:58
1. 개요중앙 메타스토어(Central Metastore 또는 Data Catalog)는 데이터 레이크·레이크하우스 환경에서 테이블 스키마, 파티션 정보, 위치(Location), 통계, 직렬화 방식(SerDe) 등 데이터의 메타데이터를 통합 관리하는 핵심 인프라 컴포넌트입니다.Spark, Trino, Flink, Hive 등 다수의 처리 엔진이 동일한 데이터 자산에 접근할 때, 각 엔진이 개별적으로 스키마 정보를 관리하면 불일치와 중복이 발생합니다. 중앙 메타스토어는 이러한 문제를 해결하기 위해 단일 진실 공급원(Single Source of Truth) 역할을 수행합니다.초기에는 Apache Hive Metastore(HMS)가 사실상 표준으로 자리 잡았으나, 데이터 레이크하우스 시대에 접어들면서 트..
-
Apache XTable이란공부/데이터 2026. 4. 26. 23:44
개요Apache XTable™(Incubating)은 데이터 레이크하우스의 서로 다른 오픈 테이블 포맷 간 상호운용성을 제공하는 오픈소스 메타데이터 변환 도구입니다. Apache Iceberg, Apache Hudi, Delta Lake 세 가지 주요 포맷 사이에서 데이터를 복사하거나 이동하지 않고 메타데이터만 번역하여, 하나의 물리적 데이터 셋을 여러 포맷으로 동시에 읽을 수 있게 해줍니다.원래 OneTable이라는 이름으로 Microsoft, Google, Onehouse가 공동으로 오픈소스화하였으며, 이후 Apache Software Foundation에 기증되어 현재 Apache XTable™ (Incubating) 으로 불리고 있습니다.💡 핵심 포인트: XTable은 새로운 테이블 포맷이 아닙..
-
시계열 데이터, 분석, 예측 모델이란?공부/데이터 2026. 4. 26. 20:34
시계열(Time Series)은 데이터 엔지니어링과 데이터 과학에서 가장 자주 다루는 데이터 유형 중 하나입니다. 본 문서에서는 시계열 데이터의 개념, 분석 방법, 그리고 대표적인 모델까지 순서대로 정리합니다.1. 시계열 데이터란?1-1. 정의시계열 데이터(Time Series Data)란 일정한 시간 간격으로 순서대로 수집된 데이터의 집합입니다. 각 데이터 포인트는 특정 시점(timestamp)에 대응하며, 시간의 흐름에 따라 값이 어떻게 변화하는지를 나타냅니다.예를 들어 다음과 같은 데이터가 시계열 데이터에 해당합니다.주식 가격 (매 분/일/주 단위 종가)기온 및 날씨 측정값 (매 시간 단위)서버 CPU 사용률 (매 초 단위)월별 매출액일별 활성 사용자 수(DAU)1-2. 시계열 데이터의 특징시계열 ..
-
MPP란공부/데이터 2026. 4. 26. 17:04
1. 개요MPP(Massively Parallel Processing, 대규모 병렬 처리)는 현대 빅데이터 분석 인프라의 핵심 아키텍처입니다. 단일 서버에서 처리하기 어려운 페타바이트 규모의 데이터를 여러 노드에 분산하여 동시에 처리함으로써, 쿼리 응답 시간을 획기적으로 단축합니다. 데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스 등 다양한 데이터 아키텍처에서 MPP 엔진은 분석 쿼리의 실행을 담당하는 핵심 컴포넌트로 자리잡고 있습니다.2. MPP란 무엇인가정의MPP(Massively Parallel Processing)는 대규모 병렬 처리를 의미하며, 데이터베이스 또는 분석 엔진이 하나의 쿼리를 여러 개의 처리 단위(노드)로 나누어 동시에 실행하는 아키텍처입니다. 단일 머신에서 수 시간이 걸리는..
-
데이터 옵저버빌리티란?공부/데이터 2026. 4. 26. 16:28
1. 개요데이터 옵저버빌리티란 무엇인가데이터 옵저버빌리티(Data Observability)란 조직이 자신의 데이터 시스템 전반에 걸쳐 데이터의 건강 상태를 완전히 파악하고 이해할 수 있는 능력을 의미합니다. 자동화된 모니터링·알림·트리아지(triage)를 통해 데이터 품질 및 발견 가능성(discoverability) 문제를 사전에 식별하고 평가함으로써 이른바 "데이터 다운타임(Data Downtime)"을 제거하는 일련의 실천 방법론입니다. 즉, 데이터가 잘못되었을 때 조직이 가장 먼저 그 사실을 인지하고, 무엇이 깨졌는지, 어떻게 고쳐야 하는지를 파악할 수 있도록 데이터 파이프라인 전체에 완전한 가시성을 제공하는 개념입니다.용어의 탄생과 역사데이터 옵저버빌리티라는 용어는 2019년 Monte Car..
-
apache hue, apache ranger, Apache Atlas란?공부/데이터 2026. 4. 26. 16:06
Apache Hue & Apache Ranger & Apache Atlas 정리1. 개요Apache Hue, Apache Ranger, Apache Atlas는 Hadoop 생태계에서 각각 쿼리/탐색, 접근 제어, 메타데이터 거버넌스를 담당하는 세 개의 핵심 오픈소스 도구입니다. 세 도구는 서로 다른 역할을 수행하지만 함께 사용될 때 완전한 엔터프라이즈 데이터 플랫폼을 구성합니다.도구핵심 역할핵심 질문Apache Hue웹 기반 SQL 에디터 / 데이터 탐색 UI데이터를 어떻게 보는가?Apache Ranger중앙화된 보안 정책 관리 / 접근 제어데이터를 누가 볼 수 있는가?Apache Atlas메타데이터 관리 / 데이터 계보 / 거버넌스데이터가 무엇이고 어디서 왔는가?세 도구는 독립적으로도 활용되지만, 함..
-
Airflow 2.3 ~ 3.1 신 기능 정리공부/데이터 2026. 4. 26. 15:39
📌Apache Airflow는 2.3 버전부터 3.1 버전까지 데이터 파이프라인의 개발·운영 방식을 근본적으로 개선하는 신기능들을 지속적으로 출시했습니다. 이 문서에서는 각 버전의 핵심 기능과 코드 예시, 장점 및 시너지를 정리했습니다.버전별 신기능 요약버전출시일핵심 기능주요 키워드2.32022.04Dynamic Task Mappingexpand(), partial()2.42022.09Datasets (Data-Aware Scheduling)Dataset, outlets, Consumer DAG2.52022.12Task/DAG 노트, 테스트 개선note, airflow dags test2.62023.04Notifiers, ContinuousTimetable, EventsTimetableBaseNotif..
-
sqlglot, sqlmesh 오픈소스공부/데이터 2026. 4. 12. 22:26
1. 개요💡SQLGlot과 SQLMesh는 모두 Tobiko Data 팀이 개발한 오픈소스 프로젝트입니다. SQLGlot은 SQL 파싱/트랜스파일의 기반 라이브러리이며, SQLMesh는 SQLGlot을 내부 파싱 엔진으로 채택하여 그 위에 구축된 데이터 변환 프레임워크입니다.두 도구는 서로 다른 추상화 수준에서 동작하지만 밀접하게 연관되어 있습니다. SQLGlot은 SQL 조작의 저수준 라이브러리로 활용되며, SQLMesh는 SQLGlot을 기반으로 고수준의 데이터 파이프라인 관리 기능을 제공합니다.핵심 개요 비교구분SQLGlotSQLMesh유형SQL 파서/트랜스파일러 라이브러리데이터 변환 프레임워크개발사Tobiko Data (Toby Mao 개발)Tobiko DataGitHub Stars약 9,100..