분류 전체보기
-
TF-IDF란?공부/데이터 2022. 8. 14. 18:28
TF-IDF (Term Frequency-Inverse Document Frequency)란 TF-IDF는 TF와 idf의 곱입니다. 2015년 한 조사에 따르면 전자도서관들이 텍스트 기반 추천시스템을 구축할 때 가장 많이쓰는 것이 이 tf-idf라고 하며, 그 비율은 83%에 이른다고 합니다. 검색엔진에서 관련성 순위를 매길때 자주 이용되며, 문서 요약 등에서도 자주 쓰인다고 합니다. 관련성 순위를 계산할 때 쓸수있는 가장 단순한 방법은 각 문서마다 이용자가 입력한 단어들의 tf-idf 값을 계산한 뒤 큰 순서대로 우선순위로 표시하는 것입니다. TF (Term Frenquency) 1개의 문서 안에서 특정 단어의 등장 빈도를 의미 문장을 단어로 나누고 전체 단어수가 얼마나 사용됐는지를 파악해 문서의 종..
-
[Git] 특정 브랜치에서 main(master) 브랜치 merge(push) 막기저장소/git 2022. 7. 3. 15:45
특정 브랜치에서 main 또는 master 브랜치에 merge 또는 push되는 것을 막는 방법을 설명합니다. 아래 설명에서는 develop → main이 되지 않도록 예시를 듭니다. github branch protection rule 추가 repository에서 Settings → Branches에 들어간 다음 Branch protection rules 에서 Add rule 을 클릭합니다. 그 다음, Branch name pattern에 아래의 룰을 적용할 패턴을 추가하고 (여기서는 main 브랜치명을 그대로 적습니다.) Require a pull request before merging 을 체크합니다. 체크하면 하위 리스트가 나오게 되는데 Require approvals 를 체크해제 하지 않고 몇명..
-
EDA(Exploratory Data Analysis)란공부/데이터 2022. 7. 2. 23:05
EDA(Exploratory Data Analysis, 탐색적 데이터 분석)는데이터 분석 과정에 대한 개념으로 데이터를 분석하고 결과를 내는 과정에 있어서 지속적으로 해당 데이터에 대한 탐색과 이해를 기본으로 가져야 한다는 것을 의미합니다. EDA를 해야 하는 이유 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고 데이터에 대한 잠재적인 문제를 발견할 수 있습니다. 이를 통해, 본격적인 분석에 들어가기에 앞서 데이터의 수집을 결정할 수 있습니다. 또한 다양한 각도에서 살펴보는 과정을 통해 문제 정의 단계에서 미쳐 발생하지 못했을 다양한 패턴을 발견하고 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세울 수 있습니다. EDA 과정 분석의 목적과 여기에 필요한 데이터 및 r..
-
prophet 모델공부/데이터 2022. 7. 2. 21:49
Prophet은 시계열 데이터를 모델링하기 위한 파이썬 또는 R 모듈입니다. 모델링 할 수 있다 라는 내용을 쉽게 설명하면 시계열 데이터 내 순차적 데이터를 모방할 수 있는 블랙박스를 구성할 수 있다라는 의미로 생각할 수 있습니다. 블랙박스는 경우에 따라서 수백, 수천만개의 파라미터를 포함하고 있습니다. 시계열 데이터를 예측(모델링)하는 방법론에는 머신러닝 방법론 그리고 고전적인 기법 ARIMA가 있습니다. Prophet은 머신러닝 기법은 아니며, ARIMA라고 하는 알고리즘 방법론을 응용하고 있습니다. ARIMA를 이용하면 계절마다의 반복성이나 여름철에 증가하는 전기 사용료를 모델링할 수 있습니다. Prophet 은 한층 더 진보적인 방법으로 트렌드와 주기적 특성뿐 아니라 예외적이고 이벤트와 같은 휴가..
-
데이터 디스커버리 플랫폼(Data Discovery Platform - DDP)이란공부/데이터 2022. 7. 2. 21:26
도서관에서 책을 찾으려면 책의 제목, 저자, 분류 기호 같은 정보를 모르면 원하는 책을 찾기가 힘듭니다. 이와 유사하게 분석가나 데이터를 찾고자 하는 팀원들은 내가 원하는 데이터가 어느 데이터베이스에 있는지 이 데이터는 무슨 의미인지 안내가 없고 흩어져 있으면 찾고 사용하기가 불편해집니다. 이러한 문제를 해결하기 위해 데이터의 위치나 의미를 보여주는 플랫폼이 데이터 디스커버리 플랫폼입니다. 데이터 디스커버리 플랫폼이란? Data Discovery Platform(DDP)가 구축되어 있지 않다면, 백엔드에서 MSA로 서비스가 운영이 되고 분석가 및 엔지니어는 이러한 데이터를 활용하여 2차, 3차 가공물을 만들었다고 할 때 원하는 테이블이나 데이터를 찾고 활용하기가 힘들 것입니다. Data Discovery..
-
제품 분석가(Product Analyst)와 비즈니스 분석가(Business Analyst) 차이점공부/데이터 2022. 7. 2. 18:51
제품 분석 과 비즈니스 분석 에 대한 설명은 링크를 따라가면 정리되어 있습니다. 여기서는 제품 분석가와 비즈니스 분석가의 차이를 설명합니다. 여러 문서를 찾아봤는데 결론은 제품 분석가와 비즈니스 분석가의 차이점은 크게 없다 입니다. 분석가가 어느 산업에 소속되어 있냐에 따라 비즈니스 분석가가 될 수도 있고 제품 분석가가 될 수도 있습니다. 이 둘의 역할은 매우 유사합니다. 요구 사항 수집, 문서화, 제품 수명 주기(프로젝트 계획), 기술 팀과 비즈니스 팀 간의 연락, 이해 관계자와의 범위 및 기대치 관리 등의 역할이 주어집니다. 비즈니스 분석가는 보통 서비스 기반 회사에서 일합니다. 비즈니스 분석가의 역할은 고객의 요구 사항을 수집하는 것입니다. 요구 사항을 수집한 후 회사의 프로젝트 관리자에게 보고합니..
-
비즈니스 분석(Business Analytics) 이란?공부/데이터 2022. 7. 2. 18:23
비즈니스 분석이란? 비즈니스 분석은 기업의 운영 프로세스를 개선할 의사 결정 지원 모델을 구축하기 위해 데이터 과학을 사용하는 작업을 의미합니다. 기업은 매일 고객 행동, 수익, 전환 등에 관한 방대한 양의 데이터 세트를 수집합니다. 데이터는 여러 곳에서 수집하여 보통 하나의 대용량 데이터 저장소에 저장합니다. 비즈니스 분석가는 이 데이터를 토대로 다양한 방법과 모델을 사용하여 조직을 개선하는데 도움이 되는 인사이트를 추출합니다. 즉, 비즈니스 분석은 다양한 방법으로 기업 프로세스를 개선하는 데 도움을 줄 의사 결정 지원 모델을 구축하기 위해 데이터 과학을 활용하는 작업을 의미합니다. 비즈니스 분석의 장점 비즈니스 분석을 통해 경쟁 업체보다 정보 우위를 확보함으로써 경쟁 우위를 점하고 이를 유지할 수 있..
-
제품 분석(Product Analysis)란?공부/데이터 2022. 7. 2. 16:47
Product analyst의 목표는 기업의 Product(또는 Service)를 분석을 통해 더욱 좋게 (더욱 판매가 잘 되게) 만드는 것입니다. Product analyst들은 보통 기업의 Product는 하나의 팀에서 만드는 경우가 없기 때문에 여러 팀과 함께 협업을 하게 되며 고객 여정 전반에 걸친 고객의 행동을 살펴보고 고객 경험과 비즈니스 결과를 개선하는 데 도움을 만들어 냅니다. 분석이기 때문에 정량적으로 데이터에 기반한 분석을 진행하게 되고 이러한 Product 관련 데이터를 지표로 표현하기도 합니다. 또한 회사 전반에 걸쳐 데이터 통찰력을 발전시키고 활용도를 올릴 수 있는 방법을 고민하며 데이터 스토리텔링을 통해 전략적인 결정을 도울 수 있습니다. Product 성장 조건 Product가..
-
[Airflow] dag vs dag_run, task vs task instance, pool 이란?공부/데이터 2022. 6. 23. 01:56
dag vs dag_run dag는 수행해야 하는 task와 의존성, 필요한 설정 값 등을 포함하는 파이썬 파일로 작성되며 이것이 실제 수행시점에 인스턴스화된 형태가 dag_run임 task vs task instance task는 DAG 작성 시 같이 정의되며 task가 인스턴스화되어 dag_run에서 실제로 수행될때는 task instance라고 함 dag, dag_run의 관계와 같음 pool 자원이 한정된 하나의 시스템에 여러 task instance가 한꺼번에 요청을 보내지 않도록 임의의 task들(같은 DB에 요청을 보내는 task 등)을 하나의 pool로 정의하고 동시에 작업되는 양을 제한할 수 있음
-
[Airflow] configuration 설명 및 파라미터 튜닝공부/데이터 2022. 6. 23. 01:54
간단하게 사용한다면 airflow 기본 설정으로도 가능하지만 많은 dag나 task들을 병렬로 처리하고자 한다면 튜닝이 진행되어야 합니다. 튜닝을 진행할 때엔 아래와 같이 3가지 단계로 진행할 수 있습니다. Airflow 환경-level DAG-level Task-level 파라미터 조정 Airflow에는 성능에 영향을 미치는 많은 파라미터가 존재하는데 이러한 설정을 조정하면 DAG, task 스케쥴링 성능, 병렬처리 등에 영향을 줄 수 있습니다. Airflow 환경-level airflow 환경을 조정하는 것이므로 모든 DAG에 영향을 주는 설정입니다. airflow.cfg 라는 설정파일을 수정하거나 재정의하여 적용할 수 있습니다. 해당 파일의 기본값이나 설명은 https://airflow.apache..