-
1. 개요
MPP(Massively Parallel Processing, 대규모 병렬 처리)는 현대 빅데이터 분석 인프라의 핵심 아키텍처입니다. 단일 서버에서 처리하기 어려운 페타바이트 규모의 데이터를 여러 노드에 분산하여 동시에 처리함으로써, 쿼리 응답 시간을 획기적으로 단축합니다. 데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스 등 다양한 데이터 아키텍처에서 MPP 엔진은 분석 쿼리의 실행을 담당하는 핵심 컴포넌트로 자리잡고 있습니다.
2. MPP란 무엇인가
정의
MPP(Massively Parallel Processing)는 대규모 병렬 처리를 의미하며, 데이터베이스 또는 분석 엔진이 하나의 쿼리를 여러 개의 처리 단위(노드)로 나누어 동시에 실행하는 아키텍처입니다. 단일 머신에서 수 시간이 걸리는 쿼리를 수 분, 때로는 수 초 만에 처리할 수 있습니다.
핵심 아키텍처
MPP는 공유 없음(Shared-Nothing) 아키텍처를 기반으로 합니다. 각 노드는 독립적인 CPU, 메모리, 스토리지를 가지며 다른 노드와 자원을 공유하지 않습니다.
구성 요소:
- 코디네이터 노드(Coordinator Node): 쿼리를 수신하고 실행 계획을 수립하여 작업을 분배합니다.
- 워커 노드(Worker Node): 코디네이터의 지시를 받아 각자 할당된 데이터 파티션을 처리합니다.
- 데이터 분산: 전체 데이터셋을 여러 노드에 분산 저장하고, 각 노드는 자신이 보유한 데이터만 처리합니다.
- 결과 집계: 각 워커의 부분 결과를 코디네이터가 취합하여 최종 결과를 반환합니다.
SMP와의 차이
구분 SMP (대칭 다중 처리) MPP (대규모 병렬 처리) 확장 방식 수직 확장 (Scale-Up) 수평 확장 (Scale-Out) 자원 공유 CPU·메모리 공유 노드별 독립 자원 한계 단일 서버 물리적 한계 노드 추가로 사실상 무제한 확장 적합 워크로드 소규모 OLTP 대규모 OLAP, 데이터 웨어하우스
3. MPP에 해당하는 제품들
3.1 Trino (구 PrestoSQL)
Facebook이 2012년 내부용으로 개발하고 2013년 오픈소스로 공개한 분산 SQL 쿼리 엔진입니다. 이후 PrestoSQL로 분리되었다가 현재는 Trino로 명칭이 변경되었습니다. 쿼리 페더레이션(Query Federation)이 가장 강력한 특징으로, 하나의 SQL 쿼리로 HDFS, S3, RDBMS, NoSQL 등 서로 다른 데이터 소스를 동시에 조회할 수 있습니다. 인메모리 실행과 파이프라인 방식을 채택하여 인터랙티브 분석에 최적화되어 있습니다.
- 개발사: 오픈소스 (Linux Foundation)
- 주요 특징: 인메모리 실행, 파이프라인 방식, 다중 카탈로그 지원
- 사용 사례: 인터랙티브 분석, ETL, 데이터 레이크 페더레이션 쿼리
3.2 Apache Impala
Cloudera가 개발한 오픈소스 MPP SQL 엔진으로, Hadoop 생태계와 긴밀하게 통합되어 있습니다. HDFS, HBase, Kudu에 저장된 데이터를 Hive 메타스토어를 통해 직접 쿼리할 수 있으며, MapReduce를 거치지 않아 빠른 응답이 가능합니다. C++ 기반 런타임을 사용하여 JVM 오버헤드가 없습니다.
- 개발사: Apache / Cloudera
- 주요 특징: Hadoop 네이티브, C++ 기반 런타임, 저지연 쿼리
- 사용 사례: Hadoop 기반 인터랙티브 BI, 실시간 대시보드
3.3 Dremio
데이터 레이크하우스에 특화된 쿼리 엔진 및 통합 플랫폼입니다. Apache Arrow 기반의 벡터화 실행 엔진과 자율 반사(Autonomous Reflections)라는 자동 물리뷰 가속 기능을 제공합니다. 쿼리 패턴을 7일 롤링 윈도우로 자동 분석하여 물리뷰를 생성·갱신·삭제합니다. Apache Iceberg를 핵심 테이블 포맷으로 채택하였으며, 오픈 카탈로그 아키텍처를 통해 데이터 거버넌스를 지원합니다.
- 개발사: Dremio Corporation
- 주요 특징: Arrow 벡터화 실행, 자동 물리뷰, 오픈 카탈로그, AI 시맨틱 레이어
- 사용 사례: 데이터 레이크하우스, 셀프서비스 BI, 에이전틱 분석
3.4 StarRocks
실시간 OLAP 분석에 특화된 MPP 데이터베이스입니다. 완전 벡터화된 실행 엔진과 CBO(비용 기반 최적화기)를 갖추고 있으며, 수천 명의 동시 사용자 지원에 강점이 있습니다. 실시간 업서트(Primary Key 테이블)와 배치 분석 모두 단일 엔진에서 처리할 수 있습니다.
- 개발사: StarRocks / CelerData
- 주요 특징: 완전 벡터화, 고동시성, 실시간 업서트, CBO 최적화
- 사용 사례: 실시간 분석 대시보드, 광고 분석, 고동시성 리포팅
3.5 ClickHouse
Yandex가 개발한 컬럼 지향 OLAP 데이터베이스입니다. 단일 테이블의 집계·필터 연산에서 매우 높은 성능을 발휘하며, 초당 수십억 행을 처리할 수 있습니다. 높은 압축률로 스토리지 효율이 뛰어나고 운영 복잡도가 낮습니다.
- 개발사: ClickHouse, Inc. (오픈소스)
- 주요 특징: 컬럼 압축, 초고속 집계, 낮은 운영 비용
- 사용 사례: 로그 분석, 웹 분석, 이벤트 집계
3.6 Greenplum
PostgreSQL을 기반으로 한 오픈소스 MPP 데이터 웨어하우스입니다. 온프레미스와 클라우드(AWS, Azure, GCP) 모두에서 구동이 가능하며, AI/ML 워크로드(PyTorch, Scikit-learn)까지 DB 내에서 직접 실행하는 통합 처리를 지원합니다.
- 개발사: Apache (VMware 기증)
- 주요 특징: PostgreSQL 호환, 온프레미스 친화, AI/ML DB 내 실행
- 사용 사례: 엔터프라이즈 데이터 웨어하우스, 금융·통신 분야
3.7 Amazon Redshift
AWS가 제공하는 완전 관리형 MPP 클라우드 데이터 웨어하우스입니다. Shared-Nothing 아키텍처를 기반으로 하며, Redshift Spectrum을 통해 S3의 데이터를 외부 테이블로 직접 쿼리할 수 있습니다. RA3 노드 도입으로 스토리지와 컴퓨팅의 분리가 가능해졌습니다.
- 개발사: Amazon Web Services
- 주요 특징: 완전 관리형, Spectrum으로 S3 직접 연동, RA3 스토리지 분리
- 사용 사례: AWS 중심 엔터프라이즈 데이터 웨어하우스
3.8 Google BigQuery
Google이 제공하는 서버리스 MPP 분석 엔진입니다. Dremel 엔진 기반으로 수천 개의 슬롯에서 쿼리를 병렬 실행하며, 인프라 관리 없이 페타바이트 규모의 데이터를 처리합니다. BigQuery ML을 통해 SQL만으로 ML 모델 학습과 추론이 가능합니다.
- 개발사: Google Cloud
- 주요 특징: 서버리스, 소비 기반 과금, 자동 확장, BigQuery ML 통합
- 사용 사례: GCP 중심 분석, 서버리스 대용량 쿼리, ML 통합 분석
3.9 Snowflake
스토리지, 컴퓨팅, 클라우드 서비스를 계층별로 분리한 하이브리드 아키텍처를 채택한 클라우드 데이터 플랫폼입니다. Shared-Nothing과 Shared-Disk의 장점을 결합하여 다중 워크로드 동시 처리가 뛰어나며, 100명 이상의 동시 사용자가 서로 다른 쿼리 유형을 실행해도 성능 저하가 없습니다.
- 개발사: Snowflake Inc.
- 주요 특징: 멀티클라우드(AWS/Azure/GCP), 컴퓨팅-스토리지 완전 분리, 높은 동시성, 데이터 공유
- 사용 사례: 데이터 공유, 멀티클라우드 데이터 플랫폼, 고동시성 분석
3.10 Apache Doris
Apache Doris는 Baidu가 개발하여 2018년 Apache 재단에 기증한 실시간 분석용 MPP OLAP 데이터베이스입니다. FE(Frontend)와 BE(Backend) 두 컴포넌트로 구성된 간결한 아키텍처를 채택하였으며, 벡터화 실행 엔진과 Pipeline 실행 엔진으로 서브세컨드 쿼리를 지원합니다. v3.0부터 스토리지-컴퓨팅 분리(제로-디스크) 아키텍처를 도입하였으며, Iceberg·Hudi·Hive 테이블을 직접 쿼리하는 레이크하우스 연동을 지원합니다. StarRocks는 Apache Doris에서 포크된 프로젝트입니다.
- 개발사: Apache Software Foundation (Baidu 기증)
- 주요 특징: FE·BE 2-tier MPP, 벡터화 실행, 실시간 업서트, 풀텍스트 검색, 스토리지-컴퓨팅 분리(v3.0+)
- 사용 사례: 실시간 분석 대시보드, 로그 분석, 고동시성 포인트 쿼리, CDC 기반 실시간 적재
3.11 Apache Cloudberry
Apache Cloudberry(인큐베이팅)는 Greenplum Database 원 개발자들이 PostgreSQL 14 커널 기반으로 재구성한 오픈소스 MPP 데이터 웨어하우스입니다. Greenplum 오픈소스 커뮤니티 종료 이후 공식 오픈소스 후계자로 자리잡고 있습니다. 벡터화 실행 엔진, AI/ML 워크로드(PyTorch, Scikit-learn) DB 내 직접 실행, pgvector 기반 벡터 데이터베이스, PAX 하이브리드 행-컬럼 스토리지 포맷 등 Greenplum 대비 다양한 기능이 추가되었습니다.
- 개발사: Apache Software Foundation (Incubating), 원 Greenplum 개발자
- 주요 특징: PostgreSQL 14 기반 MPP, 벡터화 실행, AI/ML DB 내 실행, pgvector, 레이크하우스 통합
- 사용 사례: 엔터프라이즈 데이터 웨어하우스, Greenplum 마이그레이션, AI·ML 분석
4. 각 제품과 데이터 레이크하우스 타입의 결합
데이터 레이크하우스의 핵심은 오픈 테이블 포맷(Apache Iceberg, Delta Lake, Apache Hudi)입니다. MPP 엔진이 이러한 포맷과 결합될 때 데이터 레이크의 스케일과 데이터 웨어하우스의 트랜잭션 지원을 동시에 얻을 수 있습니다.
4.1 Apache Iceberg
현재 사실상의 업계 표준으로 자리잡은 오픈 테이블 포맷입니다. 숨겨진 파티셔닝, 스냅샷 격리, 스키마 진화를 지원하며, 주요 클라우드 및 쿼리 엔진에서 광범위하게 채택되고 있습니다.
엔진 지원 수준 Trino 네이티브 지원 (읽기/쓰기) Dremio 네이티브 지원 (핵심 포맷) Apache Impala 지원 (읽기 중심) StarRocks 외부 카탈로그 연결 지원 ClickHouse Iceberg 외부 테이블 지원 Amazon Redshift Spectrum을 통한 Iceberg 연결 Google BigQuery BigLake를 통한 Iceberg 지원 Snowflake Open Catalog를 통한 Iceberg 지원 Apache Doris 네이티브 지원 (읽기/쓰기, v3.0+ Native Iceberg Catalog) Apache Cloudberry 지원 (Parquet/ORC 외부 테이블 직접 쿼리) 4.2 Delta Lake
Databricks가 개발하였으며, Apache Spark와의 통합이 가장 강합니다. 추가 전용 트랜잭션 로그(_delta_log)를 통한 ACID 트랜잭션을 지원합니다.
엔진 지원 수준 Trino Delta 커넥터 지원 StarRocks 외부 카탈로그 지원 Google BigQuery Delta Lake 연결 (제한적) Databricks 완전 통합 (최적화됨) Apache Doris 읽기 지원 (Multi Catalog) 4.3 Apache Hudi
Uber가 개발한 테이블 포맷으로, 증분 처리와 CDC(변경 데이터 캡처)에 특화되어 있습니다. CoW(Copy-on-Write)와 MoR(Merge-on-Read) 두 가지 스토리지 타입을 지원합니다.
엔진 지원 수준 Trino Hudi 커넥터 지원 Apache Flink 네이티브 지원 StarRocks 외부 카탈로그 지원 Apache Impala 읽기 지원 Apache Doris 읽기 지원 (Multi Catalog)
5. 각 제품 별 장단점
제품 특성 한눈에 보기
제품 오픈소스 대용량 조회 동시 쿼리 대용량 ETL 관리 포인트 Trino O 우수 보통 보통 높음 Apache Impala O 우수 보통 제한적 높음 Dremio △ (CE 오픈소스 / EE 유료) 우수 우수 보통 중간 StarRocks O 우수 매우 우수 보통 중간 ClickHouse O 매우 우수 (단일 테이블) 우수 제한적 낮음 Greenplum O 우수 보통 우수 높음 Amazon Redshift X 우수 보통 우수 낮음 Google BigQuery X 매우 우수 우수 우수 매우 낮음 Snowflake X 우수 매우 우수 우수 매우 낮음 Apache Doris O 우수 우수 우수 중간 Apache Cloudberry O 우수 보통 우수 높음 5.1 Trino
구분 평가 비고 오픈소스 O Linux Foundation 관리 대용량 조회 우수 TB~PB 규모 MPP 병렬 처리, 파티션 프루닝 지원 동시 쿼리 보통 워커 수 확장으로 개선 가능, 코디네이터 병목 주의 대용량 ETL 보통 배치 ETL 가능하나 인터랙티브 쿼리 최적화 설계 관리 포인트 높음 코디네이터·워커 클러스터 직접 운영, 커넥터 설정·버전 관리 필요 장점
- 이기종 데이터 소스를 단일 SQL로 쿼리하는 페더레이션 기능이 탁월합니다.
- 인터랙티브 쿼리 속도가 빠르며, Apache Spark 대비 2~30배 빠른 성능을 보이는 경우가 있습니다.
- 수평 확장이 용이하고 클라우드 네이티브 환경에 적합합니다.
- 오픈소스로 벤더 종속성이 없습니다.
단점
- 초기 설정이 복잡하고 클러스터 관리가 필요합니다.
- 장기 실행 쿼리에서 중간 실패 시 재실행 비용이 발생합니다. (최근 버전에서 중간 상태 저장으로 일부 개선)
- 배치 ETL보다 인터랙티브 쿼리에 최적화된 설계입니다.
5.2 Apache Impala
구분 평가 비고 오픈소스 O Apache License 대용량 조회 우수 C++ 런타임 기반 저지연 MPP, JVM 오버헤드 없음 동시 쿼리 보통 Hadoop 클러스터 자원에 따라 제한, 리소스 풀 설정 필요 대용량 ETL 제한적 읽기·분석 중심 설계, ETL 파이프라인은 비주력 관리 포인트 높음 Hadoop 클러스터 전체 관리 포함, 복잡한 의존성 및 버전 호환성 관리 필요 장점
- Hadoop 생태계와 긴밀하게 통합되어 HDFS 데이터를 즉시 쿼리할 수 있습니다.
- C++ 기반 런타임으로 JVM 오버헤드가 없어 저지연 쿼리가 가능합니다.
- Hive 메타스토어와의 호환성이 높습니다.
단점
- Hadoop 중심 아키텍처에 종속되어 있어 독립 배포 유연성이 낮습니다.
- Trino에 비해 다양한 데이터 소스 연결이 제한적입니다.
- 클라우드 네이티브 환경 대응이 상대적으로 뒤처집니다.
5.3 Dremio
구분 평가 비고 오픈소스 △ Community Edition 오픈소스, Enterprise 유료 대용량 조회 우수 Arrow 벡터화 + Autonomous Reflections 자동 가속 동시 쿼리 우수 물리뷰 자동 캐싱으로 반복 쿼리 동시 처리 향상 대용량 ETL 보통 데이터 변환 기능 제공, 전용 ETL 엔진(Spark 등) 대비 제한 관리 포인트 중간 Cloud 버전은 관리 부담 낮음, 자체 설치 시 코디네이터·익스큐터 구성 및 Reflections 정책 관리 필요 장점
- Apache Arrow 기반 벡터화 실행으로 높은 성능을 제공합니다.
- 자율 반사(Autonomous Reflections)로 쿼리 패턴을 자동 학습하여 물리뷰를 자동 생성·삭제합니다.
- 데이터 거버넌스 및 셀프서비스 BI 기능이 내장되어 있습니다.
- Apache Iceberg를 중심으로 한 오픈 레이크하우스 아키텍처를 완성도 높게 지원합니다.
단점
- 엔터프라이즈 플랜의 비용이 발생합니다.
- 커뮤니티 규모가 Trino·Spark 대비 상대적으로 작습니다.
- 원시 데이터 파일에 대한 쿼리는 최적화 작업이 필요한 경우가 있습니다.
5.4 StarRocks
구분 평가 비고 오픈소스 O Apache License 2.0 대용량 조회 우수 완전 벡터화 + CBO 최적화로 TB 규모 고속 조회 동시 쿼리 매우 우수 수천 명 동시 사용자 설계, 워크로드 격리 지원 대용량 ETL 보통 Broker Load·Stream Load 지원, 전용 ETL 엔진 대비 복잡 변환은 제한 관리 포인트 중간 FE(프론트엔드)·BE(백엔드) 노드 역할 분리 구성, 클러스터 확장·Tablet 복제 모니터링 필요 장점
- 완전 벡터화 엔진으로 높은 동시성(수천 사용자) 처리가 가능합니다.
- 실시간 업서트(Primary Key 테이블)와 배치 분석 모두 단일 엔진에서 처리합니다.
- Iceberg, Delta Lake, Hudi 모두 외부 카탈로그로 연결 가능합니다.
- CBO 기반 최적화로 복잡한 조인 쿼리 성능이 우수합니다.
단점
- 중국 기반 프로젝트로 해외 커뮤니티 레퍼런스가 상대적으로 제한적입니다.
- 엔터프라이즈 기능은 유료 CelerData 플랜이 필요합니다.
5.5 ClickHouse
구분 평가 비고 오픈소스 O Apache License 2.0 대용량 조회 매우 우수 단일·소수 테이블 집계·필터에서 업계 최고 수준, 복잡 조인은 제한 동시 쿼리 우수 읽기 집약적 워크로드에서 높은 동시성, 업데이트 동시 쿼리는 제한 대용량 ETL 제한적 스트리밍 삽입 가능하나 복잡한 변환·UPDATE/DELETE는 비권장 관리 포인트 낮음 단일 바이너리 배포 가능, 운영 단순·러닝커브 낮음, MergeTree 파티션 관리 정도 장점
- 단일 테이블 집계 및 필터 쿼리에서 업계 최고 수준의 처리 속도를 자랑합니다.
- 낮은 운영 비용과 간단한 배포 구조가 특징입니다.
- 높은 압축률로 스토리지 효율이 뛰어납니다.
단점
- 복잡한 다중 조인 쿼리 성능이 StarRocks 대비 제한적입니다.
- 데이터 업데이트·삭제가 제한적입니다 (MergeTree 구조 특성).
- ACID 트랜잭션 지원이 완전하지 않습니다.
5.6 Greenplum
구분 평가 비고 오픈소스 O Apache License 2.0 대용량 조회 우수 MPP 병렬 처리로 TB~PB 규모 분석 쿼리 처리 동시 쿼리 보통 세그먼트 수에 비례, 클라우드 오토스케일 대응은 상대적으로 제한 대용량 ETL 우수 gpfdist 고속 병렬 로드, ETL 파이프라인 구성 가능 관리 포인트 높음 마스터·세그먼트 노드 DBA 전문 지식 필요, 업그레이드·확장 시 전체 클러스터 관리 복잡 장점
- PostgreSQL 호환성이 높아 기존 SQL 자산을 그대로 활용할 수 있습니다.
- 온프레미스와 클라우드 모두 지원합니다.
- AI/ML(PyTorch, Scikit-learn) 워크로드를 DB 내에서 직접 실행할 수 있습니다.
단점
- 최신 클라우드 네이티브 아키텍처 대응이 상대적으로 느립니다.
- 커뮤니티 활성도가 다른 제품 대비 낮습니다.
5.7 Amazon Redshift
구분 평가 비고 오픈소스 X AWS 완전 관리형 상용 서비스 대용량 조회 우수 컬럼 압축 + MPP 병렬 처리, Spectrum으로 S3 직접 조회 동시 쿼리 보통 WLM 설정 필요, Concurrency Scaling 기능으로 확장 가능 대용량 ETL 우수 COPY 명령 고속 병렬 로드, dbt·Glue 연동 일반적 관리 포인트 낮음 AWS 완전 관리형, WLM 설정·VACUUM 주기 정도만 관리, 노드 교체·패치는 AWS가 처리 장점
- AWS 생태계와 완전히 통합되어 있습니다.
- RA3 노드로 스토리지·컴퓨팅 분리가 가능합니다.
- Spectrum으로 S3 데이터를 직접 쿼리할 수 있습니다.
- 완전 관리형으로 운영 부담이 낮습니다.
단점
- AWS 종속성이 강합니다.
- 높은 동시성 쿼리 처리 시 추가적인 WLM(워크로드 관리) 설정이 필요합니다.
- 클러스터 기반 비용이 상대적으로 높을 수 있습니다.
5.8 Google BigQuery
구분 평가 비고 오픈소스 X Google Cloud 완전 관리형 서버리스 대용량 조회 매우 우수 수천 슬롯 자동 병렬화, 페타바이트 규모 초 단위 처리 동시 쿼리 우수 슬롯 기반 자동 확장, 서버리스 자원 격리로 충돌 없음 대용량 ETL 우수 BigQuery Transfer Service, Dataflow 연동, 내장 스케줄 쿼리 관리 포인트 매우 낮음 완전 서버리스, 인프라 관리 없음·자동 확장·자동 백업, 슬롯 예약 정책 설정 정도 장점
- 서버리스로 인프라 관리가 전혀 필요 없습니다.
- 소비 기반 과금으로 소규모 워크로드에 경제적입니다.
- BigQuery ML을 통해 SQL로 ML 모델 학습·추론이 가능합니다.
- 페타바이트 규모 쿼리를 자동으로 병렬 처리합니다.
단점
- GCP 종속성이 강합니다.
- 스캔 기반 과금으로 대용량 쿼리 시 비용이 급증할 수 있습니다.
- 쿼리 비용 예측이 어려워 예산 관리가 복잡할 수 있습니다.
5.9 Snowflake
구분 평가 비고 오픈소스 X Snowflake Inc. 상용 서비스 대용량 조회 우수 가상 웨어하우스 독립 확장, TB~PB 규모 처리 동시 쿼리 매우 우수 워크로드별 독립 가상 웨어하우스 격리, 100+ 동시 사용자 성능 저하 없음 대용량 ETL 우수 Snowpipe 스트리밍 로드, COPY INTO 병렬 처리, dbt 연동 일반적 관리 포인트 매우 낮음 완전 관리형, 가상 웨어하우스 크기 조정·자동 일시 중지 설정 정도만 필요 장점
- 컴퓨팅과 스토리지가 완전 분리되어 유연한 확장이 가능합니다.
- 멀티클라우드(AWS, Azure, GCP)를 지원합니다.
- 높은 동시성 처리와 데이터 공유 기능이 뛰어납니다.
단점
- 동급 제품 대비 비용이 가장 높은 편에 속합니다.
- 커스텀 튜닝 옵션이 제한적입니다.
- 오픈소스가 아니어서 내부 구조 파악이 어렵습니다.
5.10 Apache Doris
구분 평가 비고 오픈소스 O Apache License 2.0 대용량 조회 우수 벡터화 실행 + MPP + Pipeline 엔진, 서브세컨드 쿼리 동시 쿼리 우수 고동시성 포인트 쿼리·풀텍스트 검색 특화, 수천 QPS 지원 대용량 ETL 우수 실시간 업서트·CDC 지원, v3.0+ 스토리지-컴퓨팅 분리로 대규모 적재 관리 포인트 중간 FE·BE 분리 구성, Tablet 복제·클러스터 확장 모니터링 필요 장점
- FE·BE 2계층의 간결한 아키텍처로 배포가 상대적으로 단순합니다.
- 벡터화 실행 엔진과 Pipeline 실행으로 서브세컨드 쿼리 성능을 제공합니다.
- 고동시성 포인트 쿼리와 풀텍스트 검색을 단일 엔진에서 지원합니다.
- v3.0부터 스토리지-컴퓨팅 분리 아키텍처를 지원하여 클라우드 네이티브 전환이 가능합니다.
- 5,000개 이상 기업이 사용하는 활발한 Apache 커뮤니티를 보유합니다.
단점
- 포크 프로젝트인 StarRocks와 비교 시 복잡 조인·멀티테이블 분석 성능이 낮다는 평가가 있습니다.
- v3.0 스토리지-컴퓨팅 분리는 비교적 최근 도입되어 성숙도 검증이 진행 중입니다.
- 클라우드 네이티브 환경 대응이 StarRocks·Dremio 대비 후발 주자입니다.
5.11 Apache Cloudberry
구분 평가 비고 오픈소스 O Apache License 2.0 (Incubating) 대용량 조회 우수 PostgreSQL 14 기반 MPP, 벡터화 실행 엔진 동시 쿼리 보통 세그먼트 수에 비례, 클라우드 오토스케일 제한 대용량 ETL 우수 gpfdist 호환 병렬 로드, 외부 테이블 지원 관리 포인트 높음 마스터·세그먼트 노드 관리, Greenplum 대비 개선됐으나 DBA 지식 필요 장점
- Greenplum의 직접적 오픈소스 후계자로 Greenplum 마이그레이션 경로가 명확합니다.
- PostgreSQL 14 커널로 최신 PostgreSQL 기능 및 생태계를 활용할 수 있습니다.
- AI/ML 워크로드(PyTorch, Scikit-learn)를 DB 내에서 직접 실행할 수 있습니다.
- pgvector 통합으로 벡터 검색·RAG 애플리케이션 구축이 가능합니다.
- PAX 하이브리드 행-컬럼 스토리지로 OLTP·OLAP 혼합 워크로드 지원이 향상되었습니다.
단점
- Apache Incubating 단계로 정식 졸업(TLP) 전이어서 장기 지원에 대한 불확실성이 남아있습니다.
- 커뮤니티 레퍼런스가 Greenplum·Spark 대비 적습니다.
- 마스터·세그먼트 노드 관리에 DBA 전문 지식이 여전히 필요합니다.
6. 최근 트렌드
6.1 스토리지와 컴퓨팅의 완전한 분리
2024~2025년 기준으로 대부분의 MPP 엔진이 S3, GCS, ADLS 등 오브젝트 스토리지를 기본 데이터 레이어로 채택하는 제로-디스크(Zero-Disk) 아키텍처로 전환하고 있습니다. StarRocks, Apache Doris 등이 이 방식을 도입하였으며, 워커 노드가 무상태(Stateless)로 운영되므로 워크로드 급변 시 오토스케일링이 용이합니다.
6.2 오픈 테이블 포맷의 표준화
Apache Iceberg가 사실상의 업계 표준으로 부상하였습니다. AWS, Google, Microsoft, Snowflake, Databricks 등 주요 클라우드 및 데이터 플랫폼이 모두 Iceberg를 지원하면서 단일 엔진 종속 없이 여러 MPP 엔진이 동일한 데이터를 읽고 쓸 수 있게 되었습니다. 이로써 Spark가 적재한 데이터를 Trino나 Dremio가 바로 조회하는 멀티 엔진 전략이 현실적으로 가능해졌습니다.
6.3 벡터화 실행 엔진의 보편화
SIMD(Single Instruction, Multiple Data) 명령어를 활용한 벡터화 실행이 대부분의 최신 MPP 엔진에 도입되었습니다. 행 단위가 아닌 배치(컬럼) 단위로 데이터를 처리하여 CPU 활용률을 크게 향상시킵니다. Apache Arrow가 이 벡터화 실행의 표준 메모리 포맷으로 자리잡고 있습니다.
6.4 AI/ML 워크로드 통합
MPP 엔진 내에서 직접 AI/ML 모델 추론 및 학습을 수행하는 기능이 확산되고 있습니다. GPU 가속을 통해 벡터 유사도 검색, 실시간 모델 추론, 자동 피처 엔지니어링을 쿼리 시점에 수행할 수 있게 되었습니다. Dremio는 이를 '에이전틱 레이크하우스(Agentic Lakehouse)'로 포지셔닝하고 있으며, Apache Cloudberry는 AI/ML 통합 MPP 데이터 웨어하우스를 표방하고 있습니다.
6.5 서버리스 및 소비 기반 모델 확산
BigQuery의 성공을 시작으로, Trino(Starburst Galaxy), Redshift Serverless, Snowflake Serverless 등 소비 기반(Consumption-Based) 과금 모델이 확산되고 있습니다. 유휴 클러스터 비용을 제거하고 워크로드 변동에 자동 대응할 수 있어 중소규모 팀에서도 MPP 엔진을 부담 없이 도입할 수 있게 되었습니다.
6.6 멀티 엔진 레이크하우스 전략
단일 엔진이 모든 워크로드를 커버하는 시대에서, 복수의 MPP 엔진이 동일한 레이크하우스 스토리지를 공유하며 역할을 분담하는 멀티 엔진 전략이 일반화되고 있습니다. 예를 들어 실시간 고동시성 집계는 StarRocks, 이기종 소스 페더레이션은 Trino, BI 자동 가속은 Dremio가 각각 담당하는 형태가 대표적입니다.
7. 구축 예시
7.1 Trino + Apache Iceberg on AWS S3 (인터랙티브 분석 레이크하우스)
아키텍처 구성
- 원천 데이터를 S3에 Parquet/ORC 형식으로 적재합니다.
- Apache Iceberg 테이블 포맷으로 S3 데이터를 관리합니다. (AWS Glue Catalog 또는 Hive Metastore 사용)
- Trino 클러스터를 Kubernetes(EKS) 위에 배포합니다.
- BI 도구(Apache Superset, Tableau, Metabase)가 Trino JDBC로 연결하여 쿼리합니다.
- Prometheus + Grafana로 클러스터 메트릭을 모니터링합니다.
도입 효과
마케팅 이벤트 데이터(수 TB 규모) 대시보드의 P95 응답 시간이 20초에서 5초 이하로 단축됩니다. 파티션 프루닝과 병렬 스캔이 결합되어 쿼리 성능이 대폭 향상됩니다.
7.2 Dremio + Apache Iceberg 레이크하우스 (셀프서비스 BI)
아키텍처 구성
- Kafka → Apache Flink 경로로 실시간 데이터를 S3에 Iceberg 포맷으로 스트리밍 적재합니다.
- Apache Spark로 일배치 대용량 변환을 수행하여 Iceberg 골든 테이블을 생성합니다.
- Dremio를 데이터 가상화 레이어로 배치하고, Autonomous Reflections로 자주 사용되는 쿼리를 자동 가속합니다.
- 데이터 분석가가 Dremio SQL Editor에서 직접 쿼리를 작성합니다.
도입 효과
별도의 데이터 마트 구축 없이 원본 레이크 데이터를 즉시 분석할 수 있으며, 자동 물리뷰로 반복 쿼리 비용이 절감됩니다.
7.3 StarRocks + Apache Iceberg (실시간·배치 혼합 대시보드)
아키텍처 구성
- 애플리케이션 이벤트를 Kafka를 통해 StarRocks Primary Key 테이블에 실시간 적재합니다.
- 과거 히스토리 데이터는 S3 Iceberg 테이블에 저장하고, StarRocks External Catalog로 연결합니다.
- 경영 대시보드는 StarRocks에서 직접 쿼리하여 수천 명의 동시 사용자를 처리합니다.
도입 효과
실시간 이벤트와 히스토리 데이터를 단일 쿼리로 조인할 수 있어, 실시간 집계 리포트를 1초 이내로 제공할 수 있습니다.
7.4 Snowflake + Iceberg Open Catalog (멀티클라우드 데이터 공유)
아키텍처 구성
- 각 사업부의 데이터를 S3/GCS/ADLS에 Iceberg 포맷으로 저장합니다.
- Snowflake Open Catalog(구 Polaris)를 중앙 메타데이터 허브로 사용합니다.
- 부서별로 Snowflake 가상 웨어하우스를 독립적으로 스케일링합니다.
- 외부 파트너에게는 Snowflake 데이터 공유 기능으로 안전하게 데이터를 제공합니다.
도입 효과
멀티클라우드 환경에서 단일 메타데이터 레이어로 데이터를 통합 관리할 수 있으며, 사업부별 컴퓨팅 비용을 독립적으로 제어할 수 있습니다.
8. Iceberg 기반 멀티 엔진 추천 조합
Apache Iceberg는 여러 MPP 엔진이 동일한 테이블을 동시에 안전하게 읽고 쓸 수 있는 공개 표준을 제공합니다. 각 MPP 엔진은 고동시성 OLAP, 페더레이션 쿼리, BI 자동 가속, 초고속 집계 등 서로 다른 강점을 가지고 있으며, 동일한 Iceberg 스토리지를 공유하면서 역할을 분담할 때 단일 엔진 대비 훨씬 높은 효율을 달성할 수 있습니다.
추천 조합 요약
조합 엔진 A 역할 엔진 B 역할 핵심 강점 Trino + StarRocks 페더레이션·복잡 조인 고동시성 OLAP 서빙 이기종 소스 통합 + 수천 동시 사용자 Trino + Dremio 데이터 엔지니어링 BI 자동 가속 사용자 유형별 최적 엔진 분리 StarRocks + Snowflake 실시간 고동시성 OLAP 거버넌스·데이터 공유 운영 분석 + 협업 공유 DW ClickHouse + Trino 이벤트·로그 초고속 집계 광역 페더레이션 조인 로그 성능 극대화 + 크로스 도메인 분석 Trino + Snowflake 오픈 레이크 페더레이션 관리형 DW 오픈 레이크와 관리형 DW 하이브리드 Dremio + Doris BI 자동 가속 실시간 포인트 쿼리·풀텍스트 분석 + 운영 쿼리 역할 분리 Trino + Dremio + StarRocks 데이터 엔지니어링 BI 가속 + 고동시성 OLAP 엔터프라이즈 MPP 풀스택 8.1 Trino + StarRocks (페더레이션 쿼리 + 고동시성 OLAP)
Trino는 이기종 데이터 소스(S3, RDBMS, NoSQL 등)를 단일 SQL로 페더레이션하고, StarRocks는 동일한 Iceberg 테이블을 고동시성 OLAP 서빙에 활용합니다. 데이터 엔지니어는 Trino로 복잡한 크로스 소스 분석을 수행하고, 다수의 BI 사용자는 StarRocks의 수천 동시 세션 처리 능력에 의존합니다.
- 역할 분담: Trino → 이기종 소스 페더레이션·복잡 다중 조인 / StarRocks → 고동시성 대시보드·실시간 집계
- 적합 시나리오: 데이터 엔지니어와 대규모 BI 사용자가 동일 Iceberg 레이크를 공유하는 조직
- 장점: 각 엔진의 강점을 역할별로 분리하여 동일한 Iceberg 데이터를 서로 다른 쿼리 패턴에 최적으로 서빙합니다.
8.2 Trino + Dremio (데이터 엔지니어링 + BI 자동 가속)
Trino가 데이터 엔지니어의 복잡한 크로스 소스 ad-hoc 쿼리를 처리하고, Dremio가 Autonomous Reflections로 BI 사용자의 반복 쿼리를 자동 가속합니다. 두 엔진 모두 동일한 Iceberg 카탈로그를 공유하므로 별도의 데이터 이동 없이 운영합니다.
- 역할 분담: Trino → 데이터 엔지니어 ad-hoc 쿼리·이기종 소스 페더레이션 / Dremio → BI 사용자 자동 물리뷰 가속
- 적합 시나리오: 데이터 엔지니어와 비개발자 BI 사용자가 동일 레이크를 공유하는 환경
- 장점: 사용자 유형별 최적 엔진을 제공하면서도 단일 Iceberg 스토리지로 데이터 중복 없이 운영합니다.
8.3 StarRocks + Snowflake (실시간 OLAP + 관리형 DW 협업)
StarRocks는 Iceberg External Catalog를 통해 실시간 고동시성 OLAP를 처리하고, Snowflake는 Open Catalog로 동일한 Iceberg 데이터에서 거버넌스·데이터 공유 기능을 제공합니다. 내부 운영 분석은 StarRocks에서, 외부 파트너·임원 보고는 Snowflake에서 처리합니다.
- 역할 분담: StarRocks → 내부 운영팀 실시간 고동시성 대시보드 / Snowflake → 외부 파트너·거버넌스 데이터 공유
- 적합 시나리오: 내부 운영 분석과 외부·임원 보고가 분리된 데이터 플랫폼
- 장점: 비용 효율적인 오픈소스(StarRocks)와 협업·거버넌스 강점의 관리형(Snowflake)을 동일 Iceberg 데이터 위에서 조합합니다.
8.4 ClickHouse + Trino (이벤트 초고속 집계 + 광역 페더레이션)
ClickHouse는 로그·이벤트 데이터의 단일 테이블 집계에서 업계 최고 수준의 성능을 발휘하고, Trino는 ClickHouse 결과를 다른 Iceberg 소스와 페더레이션하여 복잡한 크로스 도메인 분석을 처리합니다.
- 역할 분담: ClickHouse → 이벤트·로그 초고속 집계 (수십억 행/초) / Trino → ClickHouse + Iceberg 레이크 + 기타 소스 페더레이션 조인
- 적합 시나리오: 대용량 이벤트 집계(웹 분석, 광고 리포팅)와 종합적인 비즈니스 분석이 함께 필요한 환경
- 장점: ClickHouse의 초고속 단일 테이블 강점과 Trino의 광역 페더레이션 능력을 결합하여 각 쿼리 유형에서 최고 성능을 달성합니다.
8.5 Trino + Snowflake (오픈 레이크 + 관리형 DW 하이브리드)
원시·실험적 데이터는 Iceberg 오픈 레이크에 두고 Trino로 쿼리하며, 거버넌스·데이터 공유가 필요한 골든 데이터셋은 Snowflake에 관리합니다. Snowflake Open Catalog(구 Polaris)로 두 영역의 메타데이터를 통합합니다.
- 역할 분담: Trino → 오픈 레이크 원시 데이터 페더레이션 쿼리 / Snowflake → 거버넌스·공유에 필요한 큐레이션 데이터
- 적합 시나리오: 기존 Snowflake DW를 유지하면서 오픈 레이크로 점진적 전환을 계획하는 조직
- 장점: 클라우드 DW 투자를 지키면서 오픈 레이크의 유연성을 동시에 확보할 수 있습니다. Trino의 다중 소스 페더레이션으로 두 영역을 단일 SQL로 조인할 수 있습니다.
8.6 Dremio + Doris (BI 자동 가속 + 실시간 포인트 쿼리)
Dremio가 Iceberg 위에서 BI 분석 쿼리를 Autonomous Reflections로 자동 가속하고, Apache Doris가 동일한 Iceberg 데이터에서 실시간 포인트 쿼리와 풀텍스트 검색을 처리합니다. 분석적 워크로드(BI)와 운영적 워크로드(앱 조회)를 동일 레이크에서 역할별로 분리합니다.
- 역할 분담: Dremio → 분석가·BI 도구 대상 쿼리 자동 가속 / Doris → 애플리케이션 실시간 포인트 쿼리·키워드 풀텍스트 검색
- 적합 시나리오: 동일 데이터로 분석(BI)과 운영(앱 실시간 조회)을 모두 처리해야 하는 플랫폼
- 장점: OLAP 분석(Dremio)과 운영 쿼리(Doris)를 Iceberg를 매개로 역할 분리하여 각 엔진의 특화 영역을 극대화합니다.
8.7 Trino + Dremio + StarRocks (엔터프라이즈 MPP 풀스택)
세 MPP 엔진이 역할을 완전히 분담하는 대형 엔터프라이즈급 레이크하우스 스택입니다. Trino는 데이터 엔지니어링, Dremio는 BI 자동 가속, StarRocks는 고동시성 운영 대시보드를 담당합니다.
- 역할 분담: Trino → 데이터 엔지니어 복잡 쿼리·이기종 소스 페더레이션 / Dremio → BI 사용자 자동 가속 / StarRocks → 고동시성 운영 대시보드·실시간 집계
- 적합 시나리오: 다양한 사용자 유형(엔지니어, 분석가, 운영팀)을 모두 지원해야 하는 대형 조직
- 주의: 세 엔진의 관리 복잡도가 높아 소규모 팀에는 과도한 스택입니다. 단계적으로 Trino + StarRocks부터 시작한 뒤 필요에 따라 Dremio를 추가하는 방식을 권장합니다.
8.8 시나리오: 대용량 스캔·복잡 조인 + 고동시성 + 서비스 안정성
핵심 조건:
- TB~PB 규모 대용량 스캔 또는 다중 테이블 복잡 조인
- 수백~수천 명의 동시 쿼리 실행
- 서비스 중단 없는 운영 안정성
세 조건을 동시에 충족하려면 쿼리 복잡도와 동시성 처리를 엔진별로 분리하고, 워크로드 격리로 대용량 분석이 동시 사용자 쿼리를 억제하지 않도록 설계하는 것이 핵심입니다.
조합 대용량 스캔·복잡 조인 고동시성 안정성 특징 Trino + StarRocks Trino (CBO + 동적 필터 푸루닝) StarRocks (수천 동시 세션) Trino 장애 시 쿼리 재시도, StarRocks FE·BE 이중화 균형형 표준 스택 Dremio + StarRocks Dremio Autonomous Reflections (복잡 쿼리 사전 물리뷰화) StarRocks (고동시성 서빙) Reflections로 원본 스캔 부하 감소, 워크로드 격리 반복 복잡 쿼리 환경에 최적 Snowflake (멀티 웨어하우스) 대형 가상 웨어하우스로 대용량 스캔 워크로드별 독립 가상 웨어하우스 격리 완전 관리형 SLA 99.9%, 자동 페일오버 높은 안정성이 우선일 때 Trino + StarRocks — 균형형 표준 스택
Trino의 Cost-Based Optimizer(CBO)와 동적 필터 푸루닝이 대용량 쿼리의 실행 계획을 자동 최적화하고, StarRocks는 완전 벡터화 실행 엔진으로 수천 명의 동시 대시보드 쿼리를 처리합니다.
- 대용량 스캔 대응: Trino는 S3 및 Iceberg 파티션 프루닝 + 컴툔럼 실행으로 페타바이트 스캔을 병렬 처리합니다.
- 고동시성 대응: StarRocks는 워크로드 그룹(Resource Group)으로 큰 쿼리와 난이도 낙은 공유 쿼리를 첨저히 격리합니다.
- 안정성 대응: Trino 코디어네이터 HA 구성 + StarRocks FE 3노드 이중화로 단일 장애점 제거.
Dremio + StarRocks — 반복 복잡 쿼리에 최적
Dremio는 자주 실행되는 복잡 조인 쿼리를 Autonomous Reflections로 사전 물리뷰화하여 원본 대용량 스캔을 회피합니다. StarRocks는 물리뷰화된 결과를 고동시성으로 서빙합니다.
- 대용량 스캔 대응: Dremio가 7일 롤링 쿼리 패턴을 학습해 인기 계산을 물리뷰로 생성 → 동일 쿼리 반복시 원본 Iceberg 스캔 없이 응답.
- 고동시성 대응: StarRocks Resource Group으로 BI 세션과 실시간 쿼리를 로드별 전달.
- 안정성 대응: Dremio 코디어네이터 HA + StarRocks 이중화로 이중 이중화 구성.
Snowflake 멀티 웨어하우스 실라드 — 운영 안정성 우선
Snowflake는 각 워크로드가 독립된 가상 웨어하우스를 가지므로 대량 스캔 워크로드가 실시간 대시보드 워크로드를 절대 억제하지 않습니다.
- 대용량 스캔 대응: 큰 쿼리 전용 Large/X-Large 웨어하우스를 독립으로 스케일업.
- 고동시성 대응: BI 사용자 전용 Small 웨어하우스로 커커럼없이 수천 세션 실행.
- 안정성 대응: 완전 관리형 SLA 99.9%, 자동 장애 복구·패치, 운영 리소스 최소화.
- 단점: 세 조합 중 비용이 가장 높음.
차선 설계 패턴
- 쿼리 큐 분리: 대량 주기 분석 쿼리(Trino/Dremio)
리소스 포울 A, 실시간 사용자 쿼리(StarRocks) 쿼리 구만 세팅리소스 포울 B - 리드 쿠리어 이중화: StarRocks FE 3노드 + Trino 코디어네이터 HA
- 자동 시용제한: StarRocks 쿼리 실행시간 제한(MAX EXEC TIME) + Trino 메모리 제한으로 룰어리 쿼리가 클러스터 자원을 독점하지 않도록 구성.
9. 요약
MPP(Massively Parallel Processing)는 대규모 데이터 분석의 근간을 이루는 아키텍처로, Trino·Impala·Dremio·StarRocks·ClickHouse 등 다양한 오픈소스 엔진과 Redshift·BigQuery·Snowflake 등 클라우드 매니지드 서비스 형태로 제공됩니다.
각 엔진은 인터랙티브 분석, 실시간 OLAP, 대규모 ETL, 페더레이션 쿼리 등 서로 다른 강점을 가지고 있습니다.
엔진 오픈소스 대용량 조회 동시 쿼리 대용량 ETL 관리 포인트 주요 강점 주요 약점 Trino O 우수 보통 보통 높음 페더레이션 쿼리, 오픈소스 클러스터 관리 복잡 Impala O 우수 보통 제한적 높음 Hadoop 저지연 Hadoop 종속성 Dremio △ 우수 우수 보통 중간 자율 반사, 레이크하우스 커뮤니티 규모 StarRocks O 우수 매우 우수 보통 중간 고동시성, 실시간+배치 해외 레퍼런스 제한 ClickHouse O 매우 우수 우수 제한적 낮음 단일 테이블 초고속 집계 복잡 조인 제한 Greenplum O 우수 보통 우수 높음 PostgreSQL 호환, 온프레미스 클라우드 네이티브 대응 Redshift X 우수 보통 우수 낮음 AWS 통합, 완전 관리형 AWS 종속 BigQuery X 매우 우수 우수 우수 매우 낮음 서버리스, 자동 확장 비용 예측 어려움 Snowflake X 우수 매우 우수 우수 매우 낮음 멀티클라우드, 높은 동시성 높은 비용 Apache Doris O 우수 우수 우수 중간 실시간 업서트, 풀텍스트 검색 복잡 조인 StarRocks 대비 제한 Apache Cloudberry O 우수 보통 우수 높음 Greenplum 후계, AI/ML 통합 Incubating, DBA 지식 필요 2025년 기준 주요 트렌드는 Apache Iceberg를 중심으로 한 오픈 테이블 포맷 표준화, 스토리지-컴퓨팅 분리, 벡터화 실행 엔진의 보편화, AI/ML 워크로드 통합, 서버리스 과금 모델입니다. 단일 엔진이 모든 워크로드를 커버하는 시대에서, 여러 MPP 엔진이 동일한 레이크하우스 스토리지를 공유하며 역할을 분담하는 멀티 엔진 레이크하우스 전략이 현대 데이터 아키텍처의 주류로 자리잡고 있습니다.