전체 글
-
중앙 메타스토어란 (레이크하우스 관점)공부/데이터 2025. 6. 8. 23:01
중앙 메타스토어는 다양한 데이터 처리 엔진과 플랫폼들이 데이터에 대한 정보를 공유하고 일관되게 접근할 수 있도록 모든 메타데이터를 한곳에 통합하여 관리하는 중앙 저장소입니다.레이크하우스의 핵심 목표는 데이터 레이크의 유연성과 데이터 웨어하우스의 안정적인 데이터 관리 및 분석 성능을 결합하는 것입니다. 중앙 메타스토어는 이 두 세계를 연결하고 레이크하우스의 하우스 역할을 가능하게 하는 핵심적인 두뇌이자 관제탑이라고 할 수 있습니다.레이크하우스에서 중앙 메타스토어가 필수적인 이유중앙 메타스토어는 다양한 데이터 처리 엔진(Spark, Flink, Trino 등)이 데이터 레이크 위의 데이터에 대해 동일한 정보를 공유하고 일관되게 접근할 수 있도록 하는 단일 진실 공급원(Single Source of Truth..
-
레이크 하우스란공부/데이터 2025. 6. 3. 22:16
레이크 하우스는 데이터 레이크의 유연성과 비용 효율성에 데이터 웨어하우스의 데이터 관리 기능과 신뢰성을 결합한 형태입니다.전통적으로 기업들은 다음과 같은 두 가지 주요 시스템을 별도로 운영하는 경우가 많았습니다.데이터 레이크: 다양한 형태(정형, 반정형, 비정형)의 원시 데이터를 원래 형식 그대로 대량으로 저장하는 비용 효율적인 저장소입니다. 주로 데이터 과학, 머신러닝, 탐색적 분석에 활용되지만 데이터의 품질, 일관성, 거버넌스 관리가 어렵다는 단점이 있었습니다.데이터 웨어하우스: 주로 정형 데이터를 중심으로, 분석 및 보고를 위해 잘 정제되고 구조화된 데이터를 저장하는 시스템입니다. ACID 트랜잭션, 스키마 강제, 우수한 쿼리 성능, 데이터 품질 및 거버넌스 기능을 제공하지만 데이터 로딩 전 ETL..
-
데이터 저장 타입(포맷)공부/데이터 2025. 6. 3. 18:17
개요데이터 저장 타입은 데이터를 어떻게 구조화하고 디스크나 메모리에 저장할지를 정의하는 방식을 의미합니다. 어떤 타입을 선택하느냐에 따라 데이터 처리 성능, 저장 공간 효율성, 데이터 모델링의 유연성, 시스템 간 호환성 등이 크게 달라질 수 있습니다.다음은 파일 포맷에 어떤 종류가 있는지를 설명합니다. 파일 포맷은 데이터가 파일 시스템(로컬 디스크, HDFS, 클라우드 스토리지 등)에 실제로 저장되는 구체적인 방식을 의미합니다.행 기반 포맷 (Row-based)데이터를 행 단위로 묶어서 저장합니다.csv / tsv가장 간단한 텍스트 기반 포맷으로 쉼표나 탭으로 각 필드를 구분합니다. 사람이 읽기 쉽고 대부분의 시스템에서 지원하지만 스키마 정보가 없어 데이터 타입 유추가 필요하고 압축률이 낮습니다. 또한 ..
-
[GCP] GKE 인그레스와 cloud Load balancingAWS & GCP 2025. 3. 31. 23:39
GKE에서 인그레스를 세팅하고 배포하면 자동으로 cloud load balancing 서비스를 전개합니다. 여기서 ingress나 service에 어노테이션을 추가하여 cloud load balancing 서비스의 옵션을 설정하거나 정상 실행을 하려면 꼭 있어야 하는 옵션에 대해 설명합니다.설정다음과 같이 values, service, ingress가 세팅이 되어있고 배포를 했다고 가정합니다.# Default values for mario.# This is a YAML-formatted file.# Declare variables to be passed into your templates.replicaCount: 2resources: limits: cpu: 1000m memory: 4G..
-
[GCP] GKE에서 인바운드를 허용하도록 구성하기AWS & GCP 2025. 3. 30. 19:42
개요일반적으로 클러스터를 private으로 구성한 다음, 외부에서 트래픽을 허용하도록 서비스를 구성합니다. 이 때, 외부에서 어떻게 내부로 트래픽을 허용할 수 있는지를 설명합니다.NodePort는 주로 클러스터 내부적인 테스트나 디버깅 목적으로 사용되며 Private 클러스터에서 직접적인 외부 접근을 허용하는 데는 적합하지 않습니다. 여기선 service 타입을 ClusterIP + ingress 와 service 타입을 loadbalancer로 설정하는 두 가지에 대해 설명합니다.service 타입 ClusterIP + ingress 로 구성GKE에서 외부 클라이언트에게 대시보드를 제공하는 서비스를 구성하기 위해서는 Service, Ingress, 그리고 GCP의 부하분산 서비스를 설정해야 합니다. 이..
-
[GCP] GKE 설명 및 생성해보기카테고리 없음 2025. 3. 30. 18:30
GKE 모드 설명gke는 autopilot 모드와 standard 모드가 있습니다.autopilot 모드는 Google이 클러스터 인프라를 자동으로 관리해주는 완전 관리형 모드로 노드 관리가 필요 없고, 워크로드에만 집중 가능하며 사용한 리소스만큼 비용을 지불하면 됩니다.GKE Autopilot과 Standard를 비교 요약하면 다음과 같습니다.항목Autopilot 모드Standard 모드운영 부담✅ Google이 자동 관리❌ 직접 관리 필요노드 관리❌ 불가능 (Google이 자동 운영)✅ 가능 (사용자가 설정)리소스 과금 방식Pod 단위 과금 (최적화됨)VM 단위 과금 (비효율적일 수 있음)확장성✅ 자동 확장 최적화⚠️ 직접 관리 필요보안 관리✅ 자동 보안 패치⚠️ 수동 패치 필요커스텀 설정❌ 제한됨✅..
-
[GCP] vpc, subnet, 방화벽 설명 및 생성해보기AWS & GCP 2025. 3. 30. 15:01
VPCVPC 네트워크 예시Subnet1은 us-west1 리전에서 10.240.0.0/24로 정의됩니다.us-west1-a 영역의 두 개 VM 인스턴스가 이 서브넷에 있습니다. 두 개의 IP 주소는 모두 subnet1의 가용 주소 범위에 속합니다.Subnet2는 us-east1 리전에서 192.168.1.0/24로 정의됩니다.us-east1-b 영역의 두 개 VM 인스턴스가 이 서브넷에 있습니다. 두 개의 IP 주소는 모두 subnet2의 가용 주소 범위에 속합니다.Subnet3도 us-east1 리전에서 10.2.0.0/16으로 정의됩니다.us-east1-b 영역의 VM 인스턴스 하나와 us-east1-c 영역의 두 번째 인스턴스는 각각 subnet3에 있으며 사용 가능한 범위에서 IP 주소를 수신합니..
-
[Helm] 가이드 - NOTES.txt공부/쿠버네티스&헬름 2025. 3. 15. 21:33
helm install 또는 helm upgrade가 완료되면 Helm은 사용자에게 유용한 정보 블록을 출력할 수 있습니다. 이 정보는 템플릿을 사용하여 매우 사용자 정의가 가능합니다.차트에 설치 노트를 추가하려면 templates/NOTES.txt 파일을 생성하기만 하면 됩니다. 이 파일은 일반 텍스트이지만 템플릿처럼 처리되며 모든 일반적인 템플릿 함수와 객체를 사용할 수 있습니다.아래는 간단한 NOTES.txt 파일입니다.Thank you for installing {{ .Chart.Name }}.Your release is named {{ .Release.Name }}.To learn more about the release, try: $ helm status {{ .Release.Name }} ..
-
[Helm] 가이드 - 템플릿공부/쿠버네티스&헬름 2025. 3. 15. 21:31
named template(때로는 partial 또는 subtemplate이라고도 함)은 단순히 파일 내부에 정의되고 이름이 부여된 템플릿입니다. 이를 생성하는 두 가지 방법과 사용하는 몇 가지 다른 방법을 살펴볼 것입니다.템플릿 이름을 지정할 때 중요한 세부 정보는 템플릿 이름은 전역적이라는 것입니다. 동일한 이름으로 두 개의 템플릿을 선언하면 마지막에 로드된 템플릿이 사용됩니다. 서브차트의 템플릿은 최상위 레벨 템플릿과 함께 컴파일되므로, 템플릿 이름을 차트별 고유한 이름으로 지정하는 데 주의해야 합니다.일반적인 명명 규칙 중 하나는 정의된 각 템플릿에 차트 이름을 접두사로 붙이는 것입니다. 예를 들어 {{ define "mychart.labels" }}와 같이 사용합니다. 특정 차트 이름을 접두사로..
-
[Helm] 가이드 - values(변수)공부/쿠버네티스&헬름 2025. 3. 15. 20:56
변수템플릿에서는 튜플이 자주 사용되지는 않지만 튜플을 사용하여 코드를 단순화하고 with와 range를 더 효과적으로 사용하는 방법을 살펴보겠습니다. {{- with .Values.favorite }} drink: {{ .drink | default "tea" | quote }} food: {{ .food | upper | quote }} release: {{ .Release.Name }} {{- end }}Release.Name은 with 블록에서 제한된 스코프 내에 있지 않습니다. 스코프 문제를 해결하는 한 가지 방법은 현재 스코프에 관계없이 접근할 수 있는 변수에 객체를 할당하는 것입니다.Helm 템플릿에서 변수는 다른 객체에 대한 명명된 참조입니다. $name 형태를 따릅니다. 변수는 특..