공부/데이터
-
데이터 메시(Data Mesh)란?공부/데이터 2023. 7. 16. 16:38
데이터 메시는 왜 나오게 됐는가? 데이터 메시는 기존의 중앙 집중식 데이터 아키텍처의 한계와 어려움을 극복하기 위해 등장했습니다. 이는 기업이 다양한 소스에서 대량의 데이터를 다루고 분석해야 하는 상황에서 유연성과 효율성을 높이기 위한 것입니다. 기존 중앙 집중식 데이터의 어려움은 다음과 같습니다. 사일로화된 데이터 팀: 중앙의 데이터 팀에 있는 전문 데이터 사이언티스트와 엔지니어는 비즈니스와 도메인에 대한 지식이 부족합니다. 이러한 사실로 인해, 데이터 팀은 목적을 명확하게 이해하지 못한 채로 어쨌든 다양한 운영 및 분석 요구 사항에 맞는 데이터를 제공해야 합니다. 이는 데이터의 정확성과 유용성에 부정적인 영향을 미칠 수 있습니다. 느린 변경 응답성: 데이터 엔지니어는 일반적으로 데이터를 수집하여 중앙..
-
데이터 패브릭(Data Fabric)이란?공부/데이터 2023. 7. 14. 01:55
데이터 패브릭은 왜 나오게 됐는가? 데이터 레이크는 모든 정형 및 비정형 데이터를 중앙 저장소에 저장할 수 있게 해주고, 실시간 스트리밍 기능과 데이터 처리 기능을 제공합니다. 이러한 기능으로 인해 데이터 레이크는 데이터 웨어하우스보다 더 유연한 성능을 제공하지만, 여전히 기업 내의 데이터 팀은 서로 다른 요구사항을 가진 비즈니스 내 여러 부서로부터 받은 임시 요청을 처리하는 데 어려움을 겪고 있습니다. 데이터 팀은 데이터 레이크에서 다양한 도메인을 위한 분석 파이프라인을 준비하여 도메인 팀의 사용자가 데이터를 사용할 수 있도록 해야 합니다. 그러나 데이터를 수집하고 정제하는 것은 부담스러울 수 있습니다. 또한 다양한 도메인에서 제공되는 데이터의 특징을 이해하기 위해 광범위한 분석이 필요하며, 조직적으로..
-
[Airflow] Sensor의 reschedule과 poke 실행 모드 동작 원리공부/데이터 2023. 4. 16. 23:17
airflow 공식 블로그에서도 각 모드에 대해 어떻게 동작이 달라지는지 설명이 나와 있지 않아 실제 코드를 보며 설명을 해보겠습니다 Sensor operator의 설명은 https://brownbears.tistory.com/587 에서 확인할 수 있습니다. airflow 2.3.4버전 poke 모드 sensor에서 poke을 설정하고 해당 sensor가 실행되면 airflow UI에서 다음과 같은 로그를 볼 수 있습니다. [2023-04-10, 11:22:17 UTC] {external_task.py:184} INFO - Poking for tasks None in dag on 2023-04-10T10:00:00+00:00 ... [2023-04-10, 11:23:17 UTC] {external_ta..
-
[Airflow] SLAs 사용하기공부/데이터 2023. 4. 10. 00:22
airflow의 DAG에서 각 task 단계는 일정 시간 내에 실행되어야 합니다. 이 때, SLA(Service Level Agreement)를 사용하여 작업 단계가 제때 실행되는지 확인할 수 있습니다. 아래에서 SLA가 무엇인지, 어떻게 사용하는지와 현재 airflow에서 SLA의 한계까지 설명합니다. 여기서 airflow 2.3.4 버전 기준으로 설명합니다. SLA란? Service Level Agreement (SLA)는 서비스 수준 협약으로, 서비스 제공자와 이용자 간에 서비스 제공에 대한 약속 내용을 명시한 문서입니다. 이를 통해 서비스 제공자는 이용자에게 최소한의 서비스 수준을 보장하며, 이용자는 이에 대한 보상을 받을 수 있습니다. Airflow SLA 사용하기 SLA는 task 단위로 설정..
-
TF-IDF란?공부/데이터 2022. 8. 14. 18:28
TF-IDF (Term Frequency-Inverse Document Frequency)란 TF-IDF는 TF와 idf의 곱입니다. 2015년 한 조사에 따르면 전자도서관들이 텍스트 기반 추천시스템을 구축할 때 가장 많이쓰는 것이 이 tf-idf라고 하며, 그 비율은 83%에 이른다고 합니다. 검색엔진에서 관련성 순위를 매길때 자주 이용되며, 문서 요약 등에서도 자주 쓰인다고 합니다. 관련성 순위를 계산할 때 쓸수있는 가장 단순한 방법은 각 문서마다 이용자가 입력한 단어들의 tf-idf 값을 계산한 뒤 큰 순서대로 우선순위로 표시하는 것입니다. TF (Term Frenquency) 1개의 문서 안에서 특정 단어의 등장 빈도를 의미 문장을 단어로 나누고 전체 단어수가 얼마나 사용됐는지를 파악해 문서의 종..
-
EDA(Exploratory Data Analysis)란공부/데이터 2022. 7. 2. 23:05
EDA(Exploratory Data Analysis, 탐색적 데이터 분석)는데이터 분석 과정에 대한 개념으로 데이터를 분석하고 결과를 내는 과정에 있어서 지속적으로 해당 데이터에 대한 탐색과 이해를 기본으로 가져야 한다는 것을 의미합니다. EDA를 해야 하는 이유 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고 데이터에 대한 잠재적인 문제를 발견할 수 있습니다. 이를 통해, 본격적인 분석에 들어가기에 앞서 데이터의 수집을 결정할 수 있습니다. 또한 다양한 각도에서 살펴보는 과정을 통해 문제 정의 단계에서 미쳐 발생하지 못했을 다양한 패턴을 발견하고 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세울 수 있습니다. EDA 과정 분석의 목적과 여기에 필요한 데이터 및 r..
-
prophet 모델공부/데이터 2022. 7. 2. 21:49
Prophet은 시계열 데이터를 모델링하기 위한 파이썬 또는 R 모듈입니다. 모델링 할 수 있다 라는 내용을 쉽게 설명하면 시계열 데이터 내 순차적 데이터를 모방할 수 있는 블랙박스를 구성할 수 있다라는 의미로 생각할 수 있습니다. 블랙박스는 경우에 따라서 수백, 수천만개의 파라미터를 포함하고 있습니다. 시계열 데이터를 예측(모델링)하는 방법론에는 머신러닝 방법론 그리고 고전적인 기법 ARIMA가 있습니다. Prophet은 머신러닝 기법은 아니며, ARIMA라고 하는 알고리즘 방법론을 응용하고 있습니다. ARIMA를 이용하면 계절마다의 반복성이나 여름철에 증가하는 전기 사용료를 모델링할 수 있습니다. Prophet 은 한층 더 진보적인 방법으로 트렌드와 주기적 특성뿐 아니라 예외적이고 이벤트와 같은 휴가..
-
데이터 디스커버리 플랫폼(Data Discovery Platform - DDP)이란공부/데이터 2022. 7. 2. 21:26
도서관에서 책을 찾으려면 책의 제목, 저자, 분류 기호 같은 정보를 모르면 원하는 책을 찾기가 힘듭니다. 이와 유사하게 분석가나 데이터를 찾고자 하는 팀원들은 내가 원하는 데이터가 어느 데이터베이스에 있는지 이 데이터는 무슨 의미인지 안내가 없고 흩어져 있으면 찾고 사용하기가 불편해집니다. 이러한 문제를 해결하기 위해 데이터의 위치나 의미를 보여주는 플랫폼이 데이터 디스커버리 플랫폼입니다. 데이터 디스커버리 플랫폼이란? Data Discovery Platform(DDP)가 구축되어 있지 않다면, 백엔드에서 MSA로 서비스가 운영이 되고 분석가 및 엔지니어는 이러한 데이터를 활용하여 2차, 3차 가공물을 만들었다고 할 때 원하는 테이블이나 데이터를 찾고 활용하기가 힘들 것입니다. Data Discovery..
-
제품 분석가(Product Analyst)와 비즈니스 분석가(Business Analyst) 차이점공부/데이터 2022. 7. 2. 18:51
제품 분석 과 비즈니스 분석 에 대한 설명은 링크를 따라가면 정리되어 있습니다. 여기서는 제품 분석가와 비즈니스 분석가의 차이를 설명합니다. 여러 문서를 찾아봤는데 결론은 제품 분석가와 비즈니스 분석가의 차이점은 크게 없다 입니다. 분석가가 어느 산업에 소속되어 있냐에 따라 비즈니스 분석가가 될 수도 있고 제품 분석가가 될 수도 있습니다. 이 둘의 역할은 매우 유사합니다. 요구 사항 수집, 문서화, 제품 수명 주기(프로젝트 계획), 기술 팀과 비즈니스 팀 간의 연락, 이해 관계자와의 범위 및 기대치 관리 등의 역할이 주어집니다. 비즈니스 분석가는 보통 서비스 기반 회사에서 일합니다. 비즈니스 분석가의 역할은 고객의 요구 사항을 수집하는 것입니다. 요구 사항을 수집한 후 회사의 프로젝트 관리자에게 보고합니..
-
비즈니스 분석(Business Analytics) 이란?공부/데이터 2022. 7. 2. 18:23
비즈니스 분석이란? 비즈니스 분석은 기업의 운영 프로세스를 개선할 의사 결정 지원 모델을 구축하기 위해 데이터 과학을 사용하는 작업을 의미합니다. 기업은 매일 고객 행동, 수익, 전환 등에 관한 방대한 양의 데이터 세트를 수집합니다. 데이터는 여러 곳에서 수집하여 보통 하나의 대용량 데이터 저장소에 저장합니다. 비즈니스 분석가는 이 데이터를 토대로 다양한 방법과 모델을 사용하여 조직을 개선하는데 도움이 되는 인사이트를 추출합니다. 즉, 비즈니스 분석은 다양한 방법으로 기업 프로세스를 개선하는 데 도움을 줄 의사 결정 지원 모델을 구축하기 위해 데이터 과학을 활용하는 작업을 의미합니다. 비즈니스 분석의 장점 비즈니스 분석을 통해 경쟁 업체보다 정보 우위를 확보함으로써 경쟁 우위를 점하고 이를 유지할 수 있..