본문 바로가기

반응형

배치

(2)
Part 1 - [Chapter 2] . 데이터 엔지니어링 수명 주기 (2) 2.1.3 데이터 저장 데이터를 저장할 공간이 필요하다, 스토리지 설루션을 선택하는 것은 나머지 데이터 수명주기에서 성공을 거두기 위한 열쇠이면서, 다음과 같은 다양한 이유로 데이터 수명 주기에서 가장 복잡한 단계의 하나다 첫째, 클라우드의 데이터 아키텍처는 종종 여러 스토리지 설루션을 활용함 둘째, 복잡한 변환 쿼리를 지원하는 데이터 스토리지 설류션은 순수하게 스토리지로만 작동하는 경우가 거의 없으며 많은 설루션이 복잡한 쿼리를 지원한다 심지어 객체 스토리지 설루션도 Amazon S3 Select와 같은 강력한 쿼리 기능을 지원할 수 있다 셋째, 저장은 데이터 엔지니어링 수명 주기의 한 단계이지만 변환 및 서비스 제공과 같은 다른 단계에서도 자주 관여한다 둘쨰가 참 흥미로운데 이게 보면 대표적으로 S3..
Batch 와 Streaming Batch Processing 배치 (Batch) == 일괄 배치 프로세싱(Batch Processing) == 일괄 처리 많은 양의 데이터를 정해진 시간에 한꺼번에 처리하는 것 한정된 데이터 특정 시간 일괄 처리 실시간 보장이 없을때 데이터를 한꺼번에 처리할 수 있을때 무거운 처리를 할때 (ML) Streaming Processing 실시간으로 쏟아지는 데이터를 계속 처리하는 것 이벤트가 생길 때 마다, 데이터가 들어올때마다 처리 물론 streaming 도 batch 처럼 사용할 수 있음 불규칙적으로 데이터가 들어온다는 가정을 진행해보면 1. 이벤트가 안들어올때 (오랫동안) 2. 여러개의 이벤트가 한꺼번에 올떄 이렬경우 불규칙으로 데이터가 들어오므로 처리하는 데이터가 각각 마다 달라지기 때문에 리소스 ..

반응형