스트리밍 (4) 썸네일형 리스트형 Part 1 - [Chapter 2] . 데이터 엔지니어링 수명 주기 (2) 2.1.3 데이터 저장 데이터를 저장할 공간이 필요하다, 스토리지 설루션을 선택하는 것은 나머지 데이터 수명주기에서 성공을 거두기 위한 열쇠이면서, 다음과 같은 다양한 이유로 데이터 수명 주기에서 가장 복잡한 단계의 하나다 첫째, 클라우드의 데이터 아키텍처는 종종 여러 스토리지 설루션을 활용함 둘째, 복잡한 변환 쿼리를 지원하는 데이터 스토리지 설류션은 순수하게 스토리지로만 작동하는 경우가 거의 없으며 많은 설루션이 복잡한 쿼리를 지원한다 심지어 객체 스토리지 설루션도 Amazon S3 Select와 같은 강력한 쿼리 기능을 지원할 수 있다 셋째, 저장은 데이터 엔지니어링 수명 주기의 한 단계이지만 변환 및 서비스 제공과 같은 다른 단계에서도 자주 관여한다 둘쨰가 참 흥미로운데 이게 보면 대표적으로 S3.. Chapter 2. 클라이언트에서 데이터 가져오기: 데이터 수집 우리가 다루는 첫 번째 단계인 수집 단계(Collection tier)는 우리의 스트리밍 시스템으로 데이터를 입수하는 지점이다. 수집 단계를 강조한 스트리밍 데이터 아키텍처는 다음 과 같다. 2.1 일반적인 통신 패턴 오늘날, 클라이언트에서 생성되는 데이터를 시스템에 입수하기 위해(또는 수집 단계에서 서버가 직접 데이터를 Pulling 하기 위해) 몇 안되는 프로토콜을 사용한다 만물 인터넷의 등장으로 다양한 통신 패턴들이 존재하겠지만. 다음과 같은 몇 가지 통신 패턴 중 한 가지 패턴을 선택하여 통신하는 것이 일반적이다. 요청/응답 패턴 (Request/response pattern) 발행/구독 패턴 (Publish/subscribe pattern) 단방향 패턴 (One-way pattern) 요청/확인.. Chapter 1. 스트리밍 데이터 소개 1. 스트리밍 데이터 소개 2013년 5월, 스칸다니비아 연구 센터에서 발간한 보고서에 따르면 전 세계에 존재하는 90% 가량의 데이터는 자닌 2년 안에 생성되었다고 추정했다 2014년 EMC가 IDC와 함께 파트너십을 맺고 디지털 유니버스 연구를 발표 했는데 디지털 유니버스의 규모가 2년마다 두 배로 증가하고 있으며 2013년부터 2020년 사이에 4조 4천억 기가바이트에서 44조 기가바이트로 10배 증가할 것으로 보고 했다 빅데이터라는개념은 오랜기간 존재했지만 수집, 적재, 분석하는 기술을 갖게 된 것은 그리 오래되지 않았다 이로써 빅데이터를 기반으로 빠른 의사 결정을 내리고 소비자와 기업 주변에서 일어나는일을 서비스에서 활용하여 사용할 수 있게 되었다 하지만 기술만 있다고 빅데이터를 잘 다룰 수 있.. Batch 와 Streaming Batch Processing 배치 (Batch) == 일괄 배치 프로세싱(Batch Processing) == 일괄 처리 많은 양의 데이터를 정해진 시간에 한꺼번에 처리하는 것 한정된 데이터 특정 시간 일괄 처리 실시간 보장이 없을때 데이터를 한꺼번에 처리할 수 있을때 무거운 처리를 할때 (ML) Streaming Processing 실시간으로 쏟아지는 데이터를 계속 처리하는 것 이벤트가 생길 때 마다, 데이터가 들어올때마다 처리 물론 streaming 도 batch 처럼 사용할 수 있음 불규칙적으로 데이터가 들어온다는 가정을 진행해보면 1. 이벤트가 안들어올때 (오랫동안) 2. 여러개의 이벤트가 한꺼번에 올떄 이렬경우 불규칙으로 데이터가 들어오므로 처리하는 데이터가 각각 마다 달라지기 때문에 리소스 .. 이전 1 다음