언어
-
[Python] isinstance() VS type()언어/파이썬 & 장고 2024. 3. 13. 01:56
파이썬에서 주어진 인스턴스가 어떤 클래스 또는 타입인지 비교하는 방법은 다음과 같습니다. 각 기능에 대해 설명 후 두 방법의 차이를 설명하도록 합니다. isinstance() 파이썬 내장함수인 isinstance()는 여러 기능이 있습니다. 1. isinstance(확인하고자 하는 값, 데이터 타입) print(isinstance("abc", str)) # True print(isinstance(1234, int)) # True 2. isinstance(확인하고자 하는 인스턴스, 클래스) class Parent: pass parent = Parent() print(isinstance(parent, Parent)) # True 주의사항 isinstance의 첫 번째 argument는 인스턴스여야 제대로 비..
-
[Airflow] 데이터베이스 로그 주기적으로 자동 삭제하기언어/파이썬 & 장고 2024. 3. 1. 18:16
시간이 지남에 따라 환경의 Airflow 데이터베이스에는 더 많은 데이터가 저장됩니다. 이 데이터에는 과거 DAG 실행, 태스크, 기타 Airflow 작업과 관련된 정보 및 로그가 포함됩니다. 💡 GCP Composer2에 해당하는 내용 Airflow 데이터베이스 크기가 16GB를 초과하면 환경을 이후 버전으로 업그레이드할 수 없음 Airflow 데이터베이스 크기가 20GB를 초과하면 스냅샷을 만들 수 없음 Dag를 사용하여 주기적인 DB 유지보수 다음 유지보수 DAG를 사용하여 데이터베이스 콘텐츠 속도를 빠르게 할 수 있습니다.(프루닝) 데이터베이스 크기를 작게 유지하려면 유지보수 DAG를 주기적으로 실행해야 합니다. 구글의 composer 문서에서는 아래에서 소개할 DAG를 매일 실행하는 것이 좋다고..
-
[Python] 제어 반전 (Inversion of Control; IoC)언어/파이썬 & 장고 2023. 7. 3. 13:29
Inversion of Control (IoC)은 프로그램 흐름에서 제어를 역전시키는 프로그래밍 원칙입니다. 애플리케이션이 직접 함수와 메서드를 호출하는 대신, 제어는 의존성을 관리하고 애플리케이션에 주입하는 컨테이너로 전달됩니다. IoC는 라이브러리가 통제를 애플리케이션으로 반환함으로써 애플리케이션이 라이브러리의 동작에 영향을 미칠 때 발생합니다. 정렬을 예시로 살펴봅니다. sorted([1, 2, 3, 4, 5, 6]) 내장된 sorted() 함수는 아이템 이터러블을 받아 정렬된 리스트를 반환합니다. 통제는 호출자(즉, 애플리케이션)에서 sorted() 함수로 전달되고 함수에서 정렬한 다음, 결과를 반환하여 호출자에게 통제를 되돌려 줍니다. 다음 예시를 살펴봅니다. def distance_from(i..
-
[Python] pandas 누락된 데이터 처리 (NA, NaN, None)언어/파이썬 & 장고 2022. 8. 22. 01:31
용어 NA: Not Available의 약자로 누락된 데이터 = 결측값을 의미. 여기에는 NaN, None이 모두 포함된 개념 NaN: Not a Number의 약자로 숫자 형태의 누락된 데이터 = 결측값을 표현 None: 파이썬에서 누락된 데이터 = 결측값을 표현 inf: infinite의 약자로 무한대를 의미. https://brownbears.tistory.com/549 에서 설명되어 있음 null: NA와 동일하게 누락된 데이터를 의미. pandas에서는 해당 개념이 isnull(), notnull() 같은 함수 형태로만 나옴 누락된 데이터 처리 방식의 트레이드오프 표나 DataFrame의 누락된 데이터 존재를 나타내기 위해 여러가지 방식이 개발됐는데 일반적으로 누락된 값을 전체적으로 가리키는 마..
-
[Python] pandas 슬라이싱과 인덱싱언어/파이썬 & 장고 2022. 8. 22. 00:24
import pandas as pd data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd']) # 명시적인 인덱스로 슬라이싱 print(data['a':'c']) # a 0.25 # b 0.50 # c 0.75 # dtype: float64 # 암묵적 정수 인덱스로 슬라이싱 print(data[0:2]) # a 0.25 # b 0.50 # dtype: float64 pandas에서 슬라이싱이 많이 혼동을 일으킬 수 있습니다. 명시적인 정수 인덱스를 가지고 있다면 data[1]과 같은 인덱싱 연산은 명시적인 인덱스를 사용하겠지만, data[1:3] 같은 슬라이싱 연산은 파이썬 스타일의 암묵적 인덱스를 사용할 것입니다. import pandas..
-
[Python] pandas란 (series, dataframe, index 설명)언어/파이썬 & 장고 2022. 8. 21. 03:33
pandas는 numpy를 기반으로 만들어진 새로운 패키지로 DataFrame이라는 효율적인 자료구조를 제공합니다. DataFrame은 행과 열 레이블이 부착된 다차원 배열로 여러가지 타입의 데이터를 가질 수 있고 데이터 누락도 허용하고 있습니다. pandas는 편리한 스토리지 인터페이스와 데이터베이스 프레임워크, 스프레드시트 프로그램 사용자에게 익숙한 데이터 연산을 구현합니다. 데이터에 레이블을 붙이거나 누락딘 데이터로 작업하는 것과 같이 유연성이 필요한 작업과 요소 단위의 브로드캐스팅에 잘 매핑되지 않은 연산(그룹화, 피벗 등)을 하고자 하는 경우에는 numpy의 ndarray에서는 한계가 있습니다. pandas는 Series와 DataFrame 객체는 numpy 배열 구조를 기반으로 데이터 먼징(데..
-
[Python] numpy의 구조화된 배열언어/파이썬 & 장고 2022. 8. 15. 21:15
여러 사람에 대한 다양한 데이터(이름, 몸무게, 나이 등등)이 있고 이러한 데이터를 저장하는 방법은 다음처럼 각각의 배열로 저장할 수 있습니다. name = ['kim', 'lee', 'park'] age = [20, 30, 35] weight = [55.5, 70.0, 65.7] 3개의 리스트의 연관성이 없어서 단일 구조의 데이터로 저장한다면 더 자연스럽게 사용할 수 있습니다. 일반적으로는 dictionary 타입으로 생성해 사용하지만 좀 더 효율적인 사용법이나 연산을 위해 numpy로 생성해 보도록 합니다. name = ['kim', 'lee', 'park'] age = [20, 30, 35] weight = [55.5, 70.0, 65.7] import numpy as np data = np.zer..
-
[Python] python sort vs numpy sort언어/파이썬 & 장고 2022. 8. 15. 20:44
파이썬에서 리스트를 정렬하는 방법은 크게 내장 함수인 sort를 사용하는 것과 numpy 모듈의 sort를 사용해 진행할 수 있습니다. 방법은 다르지만 결과는 동일하게 정렬된 리스트를 받을 수 있는데 여기서 각 sort 함수의 이점을 설명해 봅니다. 일반적으로는 numpy의 sort 함수가 내장 sort 함수보다 효율적으로 동작합니다. numpy의 sort는 기본적으로 quick sort 알고리즘을 사용하지만 merge sort와 heap sort도 사용할 수 있습니다. 그렇다면 다음과 같은 조건으로 실제 테스트를 진행하여 속도 차이가 나는지 확인해보도록 합니다. import timeit import random import numpy as np TEST_SIZE = 1000000 array_ = [ra..
-
[Python] numpy 범용함수 (universal functions, ufunc)언어/파이썬 & 장고 2022. 8. 14. 22:19
numpy 배열의 연산은 빠르거나 느릴 수 있는데 연산을 빠르게 만드는 핵심은 벡터화(vectorized) 연산을 사용하는 것인데, 일반적으로 numby의 유니버설 함수 (universal functions, ufunc)를 통해 구현됩니다. 파이썬 루프는 느리다 파이썬은 타입이 유연하므로 수많은 작은 연산이 반복되는 상황에서 느립니다. 배열을 반복해서 각 요소를 조작하는 것을 예로 들면 느린 것을 볼 수 있습니다. import numpy as np # 난수 번호 고정 np.random.seed(0) def test(values): size = len(values) output = np.empty(size) for i, value in enumerate(values): output[i] = 1.0 / va..
-
[Python] list, array, numpy array 비교언어/파이썬 & 장고 2022. 8. 14. 21:42
파이썬에서 데이터를 담는 컨테이너 타입 중, list의 경우엔 선언을 크게 위 3가지로 나눌 수 있습니다. 각각의 형태와 장단점을 설명해 봅니다. list 기본적으로 사용할 수 있는 리스트는 동적 타이핑 덕분에 서로 다른 데이터 타입의 요소를 담을 수 있습니다. _list = [True, 3, "3", 3.3] [type(i) for i in _list] # [bool, int, str, float] 이러한 유연성에는 비용이 따르는데 리스트의 각 항목에 타입 정보와 참조 횟수, 기타 정보가 들어가야 합니다. 즉, 각 항목이 완전한 파이썬 객체인 것입니다. 모든 변수가 같은 타입인 경우 이 정보가 대부분 불필요하게 중복되므로 고정 타입 배열에 데이터를 저장하는 것이 더 효율적일 수 있습니다. array 데..