공부/데이터
-
sqlglot, sqlmesh 오픈소스공부/데이터 2026. 4. 12. 22:26
1. 개요💡SQLGlot과 SQLMesh는 모두 Tobiko Data 팀이 개발한 오픈소스 프로젝트입니다. SQLGlot은 SQL 파싱/트랜스파일의 기반 라이브러리이며, SQLMesh는 SQLGlot을 내부 파싱 엔진으로 채택하여 그 위에 구축된 데이터 변환 프레임워크입니다.두 도구는 서로 다른 추상화 수준에서 동작하지만 밀접하게 연관되어 있습니다. SQLGlot은 SQL 조작의 저수준 라이브러리로 활용되며, SQLMesh는 SQLGlot을 기반으로 고수준의 데이터 파이프라인 관리 기능을 제공합니다.핵심 개요 비교구분SQLGlotSQLMesh유형SQL 파서/트랜스파일러 라이브러리데이터 변환 프레임워크개발사Tobiko Data (Toby Mao 개발)Tobiko DataGitHub Stars약 9,100..
-
BI 도구 정리공부/데이터 2026. 4. 10. 16:28
📊BI(Business Intelligence) 도구는 원시 데이터를 비즈니스 인사이트로 변환하는 소프트웨어입니다. 이 문서는 Holistics 블로그 원문을 바탕으로 최신 리서치를 추가하여, 주요 BI 도구의 특징·장단점·선택 기준·2025년 트렌드를 종합적으로 정리했습니다.SQL BI vs Visual BI vs Self-Service BIBI 도구는 사용자 인터페이스와 대상 사용자에 따라 크게 세 가지 접근 방식으로 구분됩니다.구분SQL BIVisual BISelf-Service BI핵심 접근SQL 쿼리 작성 중심 — 쿼리를 직접 작성하여 데이터 탐색드래그앤드롭 시각화 중심 — GUI로 차트와 대시보드 구성비기술 사용자의 자립 분석 — SQL·코딩 없이 스스로 인사이트 도출주요 사용자SQL 숙련 ..
-
Apache DataSketches 란공부/데이터 2026. 4. 10. 16:16
0. 개요Apache DataSketches는 확률적 알고리즘(Probabilistic Algorithms) 기반의 스트리밍 데이터 집계 라이브러리입니다. 빅데이터 환경에서 정확한 계산이 수십 분~수 시간 걸리는 고유값 카운팅, 분위수 추정, 빈발 항목 탐지 같은 연산을 수 밀리초에 처리하며, 수학적으로 오차 범위를 보장합니다.2011년 Yahoo 내부 프로젝트로 시작 → 2015년 오픈소스 공개 → 2019년 Apache Software Foundation Top-Level Project 승격.항목내용공식 사이트https://datasketches.apache.org/GitHubhttps://github.com/apache/datasketches-python라이선스Apache License 2.0지원 ..
-
yaml 가이드공부/데이터 2026. 4. 5. 15:22
💡YAML 완전 가이드 — YAML이 무엇인지, 언제 쓰는지, 다른 포맷과의 차이, 기본 문법부터 Helm·K8s·GitHub Actions·Docker Compose·Ansible·OpenAPI 실전 패턴까지 한 번에 정리합니다.1. YAML이란?YAML은 "YAML Ain't Markup Language" 의 재귀 약어입니다. 초기에는 "Yet Another Markup Language"로 불렸으나, XML 같은 마크업 언어와 구분하기 위해 현재 이름으로 바뀌었습니다.공식 정의: 모든 프로그래밍 언어를 위한 사람 친화적 데이터 직렬화 언어(human-friendly data serialization language)역사연도사건2001Clark Evans, Oren Ben-Kiki, Ingy döt ..
-
데이터 모델링 기초 & 기법공부/데이터 2026. 4. 5. 00:08
1. 데이터 모델링 (Data Modeling)1.1 정의 및 개요데이터 모델링(Data Modeling)이란 조직의 데이터에 대한 구조화된 표현을 설계하는 과정입니다. 데이터 간의 관계(Relationships), 제약조건(Constraints), 패턴(Patterns)을 정의하여 비즈니스 요구사항을 데이터 구조로 변환합니다.데이터 모델링이 중요한 이유는 다음과 같습니다:데이터 품질 보장: 일관된 구조를 통해 데이터 무결성을 유지합니다커뮤니케이션 도구: 비즈니스 이해관계자와 기술팀 간의 공통 언어를 제공합니다성능 최적화: 쿼리 패턴에 맞는 구조 설계로 분석 속도를 향상시킵니다규제 준수: GDPR, CCPA 등 데이터 규제 요구사항을 체계적으로 관리합니다비용 관리: 잘못된 모델링은 Big-O 표기법으로 ..
-
시맨틱 레이어와 메트릭 레이어공부/데이터 2026. 4. 4. 19:39
개요시맨틱 레이어(Semantic Layer)와 메트릭 레이어(Metric Layer)는 데이터 조직이 복잡한 데이터 인프라를 비즈니스 친화적인 분석 인터페이스로 변환하기 위해 사용하는 데이터 추상화 계층입니다. 두 개념은 밀접하게 연관되어 있지만 범위와 목적에서 차이가 있습니다.💡 핵심 관계: 메트릭 레이어는 시맨틱 레이어의 하위 개념(subset)입니다. 시맨틱 레이어 없이 메트릭 레이어만 존재할 수 있지만, 완전한 시맨틱 레이어는 메트릭 레이어를 포함합니다.1. 시맨틱 레이어 (Semantic Layer)정의시맨틱 레이어는 데이터 웨어하우스와 분석 도구 사이에 위치하는 소프트웨어 추상화 계층으로, 복잡한 데이터 구조를 사람과 AI 시스템 모두가 이해할 수 있는 일관된 비즈니스 용어로 변환합니다.원..
-
데이터 웨어하우스 방법론과 데이터 모델링 비교공부/데이터 2025. 8. 31. 22:18
파트 1: 핵심 데이터 웨어하우스 설계 방법론데이터 웨어하우스(Data Warehouse, DW) 구축은 단순히 데이터를 한곳에 모으는 기술적 작업을 넘어, 기업의 비즈니스 인텔리전스(BI) 및 분석 역량을 좌우하는 전략적 결정입니다. 성공적인 데이터 웨어하우스는 조직의 데이터 자산을 신뢰할 수 있는 통찰력으로 전환하는 기반이 되지만, 잘못된 아키텍처 선택은 막대한 비용과 시간 낭비는 물론, 비즈니스 의사결정의 실패로 이어질 수 있습니다. 따라서 데이터 웨어하우스를 설계하는 데 사용되는 핵심 방법론들의 철학, 구조, 그리고 전략적 함의를 깊이 있게 이해하는 것은 모든 데이터 전문가에게 필수적입니다.본 보고서의 첫 번째 파트에서는 데이터 웨어하우스 설계의 세 가지 주요 패러다임인 킴볼(Kimball), 인..
-
중앙 메타스토어란 (레이크하우스 관점)공부/데이터 2025. 6. 8. 23:01
중앙 메타스토어는 다양한 데이터 처리 엔진과 플랫폼들이 데이터에 대한 정보를 공유하고 일관되게 접근할 수 있도록 모든 메타데이터를 한곳에 통합하여 관리하는 중앙 저장소입니다.레이크하우스의 핵심 목표는 데이터 레이크의 유연성과 데이터 웨어하우스의 안정적인 데이터 관리 및 분석 성능을 결합하는 것입니다. 중앙 메타스토어는 이 두 세계를 연결하고 레이크하우스의 하우스 역할을 가능하게 하는 핵심적인 두뇌이자 관제탑이라고 할 수 있습니다.레이크하우스에서 중앙 메타스토어가 필수적인 이유중앙 메타스토어는 다양한 데이터 처리 엔진(Spark, Flink, Trino 등)이 데이터 레이크 위의 데이터에 대해 동일한 정보를 공유하고 일관되게 접근할 수 있도록 하는 단일 진실 공급원(Single Source of Truth..
-
레이크 하우스란공부/데이터 2025. 6. 3. 22:16
레이크 하우스는 데이터 레이크의 유연성과 비용 효율성에 데이터 웨어하우스의 데이터 관리 기능과 신뢰성을 결합한 형태입니다.전통적으로 기업들은 다음과 같은 두 가지 주요 시스템을 별도로 운영하는 경우가 많았습니다.데이터 레이크: 다양한 형태(정형, 반정형, 비정형)의 원시 데이터를 원래 형식 그대로 대량으로 저장하는 비용 효율적인 저장소입니다. 주로 데이터 과학, 머신러닝, 탐색적 분석에 활용되지만 데이터의 품질, 일관성, 거버넌스 관리가 어렵다는 단점이 있었습니다.데이터 웨어하우스: 주로 정형 데이터를 중심으로, 분석 및 보고를 위해 잘 정제되고 구조화된 데이터를 저장하는 시스템입니다. ACID 트랜잭션, 스키마 강제, 우수한 쿼리 성능, 데이터 품질 및 거버넌스 기능을 제공하지만 데이터 로딩 전 ETL..
-
데이터 저장 타입(포맷)공부/데이터 2025. 6. 3. 18:17
개요데이터 저장 타입은 데이터를 어떻게 구조화하고 디스크나 메모리에 저장할지를 정의하는 방식을 의미합니다. 어떤 타입을 선택하느냐에 따라 데이터 처리 성능, 저장 공간 효율성, 데이터 모델링의 유연성, 시스템 간 호환성 등이 크게 달라질 수 있습니다.다음은 파일 포맷에 어떤 종류가 있는지를 설명합니다. 파일 포맷은 데이터가 파일 시스템(로컬 디스크, HDFS, 클라우드 스토리지 등)에 실제로 저장되는 구체적인 방식을 의미합니다.행 기반 포맷 (Row-based)데이터를 행 단위로 묶어서 저장합니다.csv / tsv가장 간단한 텍스트 기반 포맷으로 쉼표나 탭으로 각 필드를 구분합니다. 사람이 읽기 쉽고 대부분의 시스템에서 지원하지만 스키마 정보가 없어 데이터 타입 유추가 필요하고 압축률이 낮습니다. 또한 ..