공부/데이터
-
BI 도구 정리공부/데이터 2026. 4. 10. 16:28
📊BI(Business Intelligence) 도구는 원시 데이터를 비즈니스 인사이트로 변환하는 소프트웨어입니다. 이 문서는 Holistics 블로그 원문을 바탕으로 최신 리서치를 추가하여, 주요 BI 도구의 특징·장단점·선택 기준·2025년 트렌드를 종합적으로 정리했습니다.SQL BI vs Visual BI vs Self-Service BIBI 도구는 사용자 인터페이스와 대상 사용자에 따라 크게 세 가지 접근 방식으로 구분됩니다.구분SQL BIVisual BISelf-Service BI핵심 접근SQL 쿼리 작성 중심 — 쿼리를 직접 작성하여 데이터 탐색드래그앤드롭 시각화 중심 — GUI로 차트와 대시보드 구성비기술 사용자의 자립 분석 — SQL·코딩 없이 스스로 인사이트 도출주요 사용자SQL 숙련 ..
-
Apache DataSketches 란공부/데이터 2026. 4. 10. 16:16
0. 개요Apache DataSketches는 확률적 알고리즘(Probabilistic Algorithms) 기반의 스트리밍 데이터 집계 라이브러리입니다. 빅데이터 환경에서 정확한 계산이 수십 분~수 시간 걸리는 고유값 카운팅, 분위수 추정, 빈발 항목 탐지 같은 연산을 수 밀리초에 처리하며, 수학적으로 오차 범위를 보장합니다.2011년 Yahoo 내부 프로젝트로 시작 → 2015년 오픈소스 공개 → 2019년 Apache Software Foundation Top-Level Project 승격.항목내용공식 사이트https://datasketches.apache.org/GitHubhttps://github.com/apache/datasketches-python라이선스Apache License 2.0지원 ..
-
yaml 가이드공부/데이터 2026. 4. 5. 15:22
💡YAML 완전 가이드 — YAML이 무엇인지, 언제 쓰는지, 다른 포맷과의 차이, 기본 문법부터 Helm·K8s·GitHub Actions·Docker Compose·Ansible·OpenAPI 실전 패턴까지 한 번에 정리합니다.1. YAML이란?YAML은 "YAML Ain't Markup Language" 의 재귀 약어입니다. 초기에는 "Yet Another Markup Language"로 불렸으나, XML 같은 마크업 언어와 구분하기 위해 현재 이름으로 바뀌었습니다.공식 정의: 모든 프로그래밍 언어를 위한 사람 친화적 데이터 직렬화 언어(human-friendly data serialization language)역사연도사건2001Clark Evans, Oren Ben-Kiki, Ingy döt ..
-
데이터 모델링 기초 & 기법공부/데이터 2026. 4. 5. 00:08
1. 데이터 모델링 (Data Modeling)1.1 정의 및 개요데이터 모델링(Data Modeling)이란 조직의 데이터에 대한 구조화된 표현을 설계하는 과정입니다. 데이터 간의 관계(Relationships), 제약조건(Constraints), 패턴(Patterns)을 정의하여 비즈니스 요구사항을 데이터 구조로 변환합니다.데이터 모델링이 중요한 이유는 다음과 같습니다:데이터 품질 보장: 일관된 구조를 통해 데이터 무결성을 유지합니다커뮤니케이션 도구: 비즈니스 이해관계자와 기술팀 간의 공통 언어를 제공합니다성능 최적화: 쿼리 패턴에 맞는 구조 설계로 분석 속도를 향상시킵니다규제 준수: GDPR, CCPA 등 데이터 규제 요구사항을 체계적으로 관리합니다비용 관리: 잘못된 모델링은 Big-O 표기법으로 ..
-
시맨틱 레이어와 메트릭 레이어공부/데이터 2026. 4. 4. 19:39
개요시맨틱 레이어(Semantic Layer)와 메트릭 레이어(Metric Layer)는 데이터 조직이 복잡한 데이터 인프라를 비즈니스 친화적인 분석 인터페이스로 변환하기 위해 사용하는 데이터 추상화 계층입니다. 두 개념은 밀접하게 연관되어 있지만 범위와 목적에서 차이가 있습니다.💡 핵심 관계: 메트릭 레이어는 시맨틱 레이어의 하위 개념(subset)입니다. 시맨틱 레이어 없이 메트릭 레이어만 존재할 수 있지만, 완전한 시맨틱 레이어는 메트릭 레이어를 포함합니다.1. 시맨틱 레이어 (Semantic Layer)정의시맨틱 레이어는 데이터 웨어하우스와 분석 도구 사이에 위치하는 소프트웨어 추상화 계층으로, 복잡한 데이터 구조를 사람과 AI 시스템 모두가 이해할 수 있는 일관된 비즈니스 용어로 변환합니다.원..
-
데이터 웨어하우스 방법론과 데이터 모델링 비교공부/데이터 2025. 8. 31. 22:18
파트 1: 핵심 데이터 웨어하우스 설계 방법론데이터 웨어하우스(Data Warehouse, DW) 구축은 단순히 데이터를 한곳에 모으는 기술적 작업을 넘어, 기업의 비즈니스 인텔리전스(BI) 및 분석 역량을 좌우하는 전략적 결정입니다. 성공적인 데이터 웨어하우스는 조직의 데이터 자산을 신뢰할 수 있는 통찰력으로 전환하는 기반이 되지만, 잘못된 아키텍처 선택은 막대한 비용과 시간 낭비는 물론, 비즈니스 의사결정의 실패로 이어질 수 있습니다. 따라서 데이터 웨어하우스를 설계하는 데 사용되는 핵심 방법론들의 철학, 구조, 그리고 전략적 함의를 깊이 있게 이해하는 것은 모든 데이터 전문가에게 필수적입니다.본 보고서의 첫 번째 파트에서는 데이터 웨어하우스 설계의 세 가지 주요 패러다임인 킴볼(Kimball), 인..
-
데이터 저장 타입(포맷)공부/데이터 2025. 6. 3. 18:17
개요데이터 저장 타입은 데이터를 어떻게 구조화하고 디스크나 메모리에 저장할지를 정의하는 방식을 의미합니다. 어떤 타입을 선택하느냐에 따라 데이터 처리 성능, 저장 공간 효율성, 데이터 모델링의 유연성, 시스템 간 호환성 등이 크게 달라질 수 있습니다.다음은 파일 포맷에 어떤 종류가 있는지를 설명합니다. 파일 포맷은 데이터가 파일 시스템(로컬 디스크, HDFS, 클라우드 스토리지 등)에 실제로 저장되는 구체적인 방식을 의미합니다.행 기반 포맷 (Row-based)데이터를 행 단위로 묶어서 저장합니다.csv / tsv가장 간단한 텍스트 기반 포맷으로 쉼표나 탭으로 각 필드를 구분합니다. 사람이 읽기 쉽고 대부분의 시스템에서 지원하지만 스키마 정보가 없어 데이터 타입 유추가 필요하고 압축률이 낮습니다. 또한 ..
-
데이터 메시(Data Mesh)란?공부/데이터 2023. 7. 16. 16:38
데이터 메시는 왜 나오게 됐는가? 데이터 메시는 기존의 중앙 집중식 데이터 아키텍처의 한계와 어려움을 극복하기 위해 등장했습니다. 이는 기업이 다양한 소스에서 대량의 데이터를 다루고 분석해야 하는 상황에서 유연성과 효율성을 높이기 위한 것입니다. 기존 중앙 집중식 데이터의 어려움은 다음과 같습니다. 사일로화된 데이터 팀: 중앙의 데이터 팀에 있는 전문 데이터 사이언티스트와 엔지니어는 비즈니스와 도메인에 대한 지식이 부족합니다. 이러한 사실로 인해, 데이터 팀은 목적을 명확하게 이해하지 못한 채로 어쨌든 다양한 운영 및 분석 요구 사항에 맞는 데이터를 제공해야 합니다. 이는 데이터의 정확성과 유용성에 부정적인 영향을 미칠 수 있습니다. 느린 변경 응답성: 데이터 엔지니어는 일반적으로 데이터를 수집하여 중앙..
-
데이터 패브릭(Data Fabric)이란?공부/데이터 2023. 7. 14. 01:55
데이터 패브릭은 왜 나오게 됐는가? 데이터 레이크는 모든 정형 및 비정형 데이터를 중앙 저장소에 저장할 수 있게 해주고, 실시간 스트리밍 기능과 데이터 처리 기능을 제공합니다. 이러한 기능으로 인해 데이터 레이크는 데이터 웨어하우스보다 더 유연한 성능을 제공하지만, 여전히 기업 내의 데이터 팀은 서로 다른 요구사항을 가진 비즈니스 내 여러 부서로부터 받은 임시 요청을 처리하는 데 어려움을 겪고 있습니다. 데이터 팀은 데이터 레이크에서 다양한 도메인을 위한 분석 파이프라인을 준비하여 도메인 팀의 사용자가 데이터를 사용할 수 있도록 해야 합니다. 그러나 데이터를 수집하고 정제하는 것은 부담스러울 수 있습니다. 또한 다양한 도메인에서 제공되는 데이터의 특징을 이해하기 위해 광범위한 분석이 필요하며, 조직적으로..
-
[Airflow] Sensor의 reschedule과 poke 실행 모드 동작 원리공부/데이터 2023. 4. 16. 23:17
airflow 공식 블로그에서도 각 모드에 대해 어떻게 동작이 달라지는지 설명이 나와 있지 않아 실제 코드를 보며 설명을 해보겠습니다 Sensor operator의 설명은 https://brownbears.tistory.com/587 에서 확인할 수 있습니다. airflow 2.3.4버전 poke 모드 sensor에서 poke을 설정하고 해당 sensor가 실행되면 airflow UI에서 다음과 같은 로그를 볼 수 있습니다. [2023-04-10, 11:22:17 UTC] {external_task.py:184} INFO - Poking for tasks None in dag on 2023-04-10T10:00:00+00:00 ... [2023-04-10, 11:23:17 UTC] {external_ta..