공부/데이터
-
중앙 메타스토어란 (레이크하우스 관점)공부/데이터 2025. 6. 8. 23:01
중앙 메타스토어는 다양한 데이터 처리 엔진과 플랫폼들이 데이터에 대한 정보를 공유하고 일관되게 접근할 수 있도록 모든 메타데이터를 한곳에 통합하여 관리하는 중앙 저장소입니다.레이크하우스의 핵심 목표는 데이터 레이크의 유연성과 데이터 웨어하우스의 안정적인 데이터 관리 및 분석 성능을 결합하는 것입니다. 중앙 메타스토어는 이 두 세계를 연결하고 레이크하우스의 하우스 역할을 가능하게 하는 핵심적인 두뇌이자 관제탑이라고 할 수 있습니다.레이크하우스에서 중앙 메타스토어가 필수적인 이유중앙 메타스토어는 다양한 데이터 처리 엔진(Spark, Flink, Trino 등)이 데이터 레이크 위의 데이터에 대해 동일한 정보를 공유하고 일관되게 접근할 수 있도록 하는 단일 진실 공급원(Single Source of Truth..
-
레이크 하우스란공부/데이터 2025. 6. 3. 22:16
레이크 하우스는 데이터 레이크의 유연성과 비용 효율성에 데이터 웨어하우스의 데이터 관리 기능과 신뢰성을 결합한 형태입니다.전통적으로 기업들은 다음과 같은 두 가지 주요 시스템을 별도로 운영하는 경우가 많았습니다.데이터 레이크: 다양한 형태(정형, 반정형, 비정형)의 원시 데이터를 원래 형식 그대로 대량으로 저장하는 비용 효율적인 저장소입니다. 주로 데이터 과학, 머신러닝, 탐색적 분석에 활용되지만 데이터의 품질, 일관성, 거버넌스 관리가 어렵다는 단점이 있었습니다.데이터 웨어하우스: 주로 정형 데이터를 중심으로, 분석 및 보고를 위해 잘 정제되고 구조화된 데이터를 저장하는 시스템입니다. ACID 트랜잭션, 스키마 강제, 우수한 쿼리 성능, 데이터 품질 및 거버넌스 기능을 제공하지만 데이터 로딩 전 ETL..
-
데이터 저장 타입(포맷)공부/데이터 2025. 6. 3. 18:17
개요데이터 저장 타입은 데이터를 어떻게 구조화하고 디스크나 메모리에 저장할지를 정의하는 방식을 의미합니다. 어떤 타입을 선택하느냐에 따라 데이터 처리 성능, 저장 공간 효율성, 데이터 모델링의 유연성, 시스템 간 호환성 등이 크게 달라질 수 있습니다.다음은 파일 포맷에 어떤 종류가 있는지를 설명합니다. 파일 포맷은 데이터가 파일 시스템(로컬 디스크, HDFS, 클라우드 스토리지 등)에 실제로 저장되는 구체적인 방식을 의미합니다.행 기반 포맷 (Row-based)데이터를 행 단위로 묶어서 저장합니다.csv / tsv가장 간단한 텍스트 기반 포맷으로 쉼표나 탭으로 각 필드를 구분합니다. 사람이 읽기 쉽고 대부분의 시스템에서 지원하지만 스키마 정보가 없어 데이터 타입 유추가 필요하고 압축률이 낮습니다. 또한 ..
-
데이터 메시(Data Mesh)란?공부/데이터 2023. 7. 16. 16:38
데이터 메시는 왜 나오게 됐는가? 데이터 메시는 기존의 중앙 집중식 데이터 아키텍처의 한계와 어려움을 극복하기 위해 등장했습니다. 이는 기업이 다양한 소스에서 대량의 데이터를 다루고 분석해야 하는 상황에서 유연성과 효율성을 높이기 위한 것입니다. 기존 중앙 집중식 데이터의 어려움은 다음과 같습니다. 사일로화된 데이터 팀: 중앙의 데이터 팀에 있는 전문 데이터 사이언티스트와 엔지니어는 비즈니스와 도메인에 대한 지식이 부족합니다. 이러한 사실로 인해, 데이터 팀은 목적을 명확하게 이해하지 못한 채로 어쨌든 다양한 운영 및 분석 요구 사항에 맞는 데이터를 제공해야 합니다. 이는 데이터의 정확성과 유용성에 부정적인 영향을 미칠 수 있습니다. 느린 변경 응답성: 데이터 엔지니어는 일반적으로 데이터를 수집하여 중앙..
-
데이터 패브릭(Data Fabric)이란?공부/데이터 2023. 7. 14. 01:55
데이터 패브릭은 왜 나오게 됐는가? 데이터 레이크는 모든 정형 및 비정형 데이터를 중앙 저장소에 저장할 수 있게 해주고, 실시간 스트리밍 기능과 데이터 처리 기능을 제공합니다. 이러한 기능으로 인해 데이터 레이크는 데이터 웨어하우스보다 더 유연한 성능을 제공하지만, 여전히 기업 내의 데이터 팀은 서로 다른 요구사항을 가진 비즈니스 내 여러 부서로부터 받은 임시 요청을 처리하는 데 어려움을 겪고 있습니다. 데이터 팀은 데이터 레이크에서 다양한 도메인을 위한 분석 파이프라인을 준비하여 도메인 팀의 사용자가 데이터를 사용할 수 있도록 해야 합니다. 그러나 데이터를 수집하고 정제하는 것은 부담스러울 수 있습니다. 또한 다양한 도메인에서 제공되는 데이터의 특징을 이해하기 위해 광범위한 분석이 필요하며, 조직적으로..
-
[Airflow] Sensor의 reschedule과 poke 실행 모드 동작 원리공부/데이터 2023. 4. 16. 23:17
airflow 공식 블로그에서도 각 모드에 대해 어떻게 동작이 달라지는지 설명이 나와 있지 않아 실제 코드를 보며 설명을 해보겠습니다 Sensor operator의 설명은 https://brownbears.tistory.com/587 에서 확인할 수 있습니다. airflow 2.3.4버전 poke 모드 sensor에서 poke을 설정하고 해당 sensor가 실행되면 airflow UI에서 다음과 같은 로그를 볼 수 있습니다. [2023-04-10, 11:22:17 UTC] {external_task.py:184} INFO - Poking for tasks None in dag on 2023-04-10T10:00:00+00:00 ... [2023-04-10, 11:23:17 UTC] {external_ta..
-
[Airflow] SLAs 사용하기공부/데이터 2023. 4. 10. 00:22
airflow의 DAG에서 각 task 단계는 일정 시간 내에 실행되어야 합니다. 이 때, SLA(Service Level Agreement)를 사용하여 작업 단계가 제때 실행되는지 확인할 수 있습니다. 아래에서 SLA가 무엇인지, 어떻게 사용하는지와 현재 airflow에서 SLA의 한계까지 설명합니다. 여기서 airflow 2.3.4 버전 기준으로 설명합니다. SLA란? Service Level Agreement (SLA)는 서비스 수준 협약으로, 서비스 제공자와 이용자 간에 서비스 제공에 대한 약속 내용을 명시한 문서입니다. 이를 통해 서비스 제공자는 이용자에게 최소한의 서비스 수준을 보장하며, 이용자는 이에 대한 보상을 받을 수 있습니다. Airflow SLA 사용하기 SLA는 task 단위로 설정..
-
TF-IDF란?공부/데이터 2022. 8. 14. 18:28
TF-IDF (Term Frequency-Inverse Document Frequency)란 TF-IDF는 TF와 idf의 곱입니다. 2015년 한 조사에 따르면 전자도서관들이 텍스트 기반 추천시스템을 구축할 때 가장 많이쓰는 것이 이 tf-idf라고 하며, 그 비율은 83%에 이른다고 합니다. 검색엔진에서 관련성 순위를 매길때 자주 이용되며, 문서 요약 등에서도 자주 쓰인다고 합니다. 관련성 순위를 계산할 때 쓸수있는 가장 단순한 방법은 각 문서마다 이용자가 입력한 단어들의 tf-idf 값을 계산한 뒤 큰 순서대로 우선순위로 표시하는 것입니다. TF (Term Frenquency) 1개의 문서 안에서 특정 단어의 등장 빈도를 의미 문장을 단어로 나누고 전체 단어수가 얼마나 사용됐는지를 파악해 문서의 종..
-
EDA(Exploratory Data Analysis)란공부/데이터 2022. 7. 2. 23:05
EDA(Exploratory Data Analysis, 탐색적 데이터 분석)는데이터 분석 과정에 대한 개념으로 데이터를 분석하고 결과를 내는 과정에 있어서 지속적으로 해당 데이터에 대한 탐색과 이해를 기본으로 가져야 한다는 것을 의미합니다. EDA를 해야 하는 이유 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고 데이터에 대한 잠재적인 문제를 발견할 수 있습니다. 이를 통해, 본격적인 분석에 들어가기에 앞서 데이터의 수집을 결정할 수 있습니다. 또한 다양한 각도에서 살펴보는 과정을 통해 문제 정의 단계에서 미쳐 발생하지 못했을 다양한 패턴을 발견하고 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세울 수 있습니다. EDA 과정 분석의 목적과 여기에 필요한 데이터 및 r..
-
prophet 모델공부/데이터 2022. 7. 2. 21:49
Prophet은 시계열 데이터를 모델링하기 위한 파이썬 또는 R 모듈입니다. 모델링 할 수 있다 라는 내용을 쉽게 설명하면 시계열 데이터 내 순차적 데이터를 모방할 수 있는 블랙박스를 구성할 수 있다라는 의미로 생각할 수 있습니다. 블랙박스는 경우에 따라서 수백, 수천만개의 파라미터를 포함하고 있습니다. 시계열 데이터를 예측(모델링)하는 방법론에는 머신러닝 방법론 그리고 고전적인 기법 ARIMA가 있습니다. Prophet은 머신러닝 기법은 아니며, ARIMA라고 하는 알고리즘 방법론을 응용하고 있습니다. ARIMA를 이용하면 계절마다의 반복성이나 여름철에 증가하는 전기 사용료를 모델링할 수 있습니다. Prophet 은 한층 더 진보적인 방법으로 트렌드와 주기적 특성뿐 아니라 예외적이고 이벤트와 같은 휴가..