
PostgreSQL JOIN 성능 이슈 파이썬에서 해결하기
·
데이터 엔지니어링
배경학습 종료라는 이벤트를 정의할 수 없는 문제에 따라 발생했던 수많은 중복 이벤트, 그리고 그 이벤트들을 어떻게든 처리하기 위해 ksql을 적용했었다. 2024.02.20 - [데이터 엔지니어링] - ksqlDB를 이용해 실시간 이벤트 스트리밍 최적화하기 하지만 결국 지속적인 비용문제와 대시보드의 사용성이 보통 주간 상담에 사용되기 때문에 실시간 처리의 효율성이 낮다고 판단했다. 이에 따라 실시간으로 학습상황을 집계하던 파이프라인은 에어플로우 주간 배치로 옮겨가게 되었다. 그러나 배치 작업으로 전환한 뒤에도 문제가 발생했다. 한번에 모아서 처리하기 때문에 더 이상 중복 문제는 발생하지 않았지만 일주일치를 처리하는데 시간이 매우 오래걸렸다. 특히 기존에 문제가 되었던 데이터베이스 Read 성능이 커리큘럼..