본문 바로가기

반응형

책/Streaming System

(3)
Chapter 1. Streaming 101 (2) 진짜 볼때마다 느끼는건데 번역이 너무 아쉬워요... 스트리밍 시스템이 배치 시스템을 이기기 위해서는? 두가지가 필요하다 1. 정확성 (correctness) 정확성은 스트리밍시스템이 배치와 동등해지기 이해 필요한 조건이며, 핵심은 일관성을 제공할 수 있는 스토리지[consistent storage]로 귀결된다 스트리밍 시스템에서는 시간이 지남에 따라 영구 상태를 유지할 수 있는 체크포인트 방법이 필요하다 어떤 스트리밍 프레임워크든 체크포인트를 만듬에 따라서 중복을 최대한 방지하면서 멱등성를 보장하는 시스템을 설계하는것이 가장 이상적인데 과연 스트리밍 시스템에서 멱등성을 100프로 보장할 수 있을까 또한 스토리지는 장애 등의 상황에서도 일관성을 유지할 수 있도록 설계되어야한다. 스파크 스트리밍이 등장하면서..
Chapter 1 . Streaming 101 (1) Streaming 101 스트리밍 데이터 처리 (Streaming data. precessing) 이 주목받는 이유는 다음과 같다 기업의 입장에서는 데이터에 대한 좀 더 시기적절한 통찰력이 중요한 때이고, 스트리밍으로 전환해 이런 통찰력을 빠르게 얻을 수 있다 현대에서는 대규모의 무한 데이터셋이 점점 더 보편화되고 있으며, 이러한 데이터는 끝없이 입력되는 데이터를 다룰 수 있도록 설계된 시스템을 사용하면 더욱 쉽게 처리할 수 있다. 데이터가 도착하는 시점에 처리될 수 있다면 시스템의 작업 부하가 고르게 분산 돼 좀 더 일관되고 예측 가능한 형태로 시스템 자원을 소비할 수 있다 결국 기업이 데이터를 다룰 수 있는 수단이 증가하고 데이터가 나오는 곳이 정해져 있지 않으니 스트리밍으로 전환하여 좀 더 능동적인..
chapter 1. 빅데이터의 기초 지식 1-1 빅데이터의 정착 '분산 시스템의 발전'과 '클라우드의 서비스의 보급'에 따라 대량의 데이터를 효율적으로 처리하는 일이 어렵게 되면서 분산처리가 발달되었다.. 분산 시스템에 의한 데이터 처리의 고속화 - 빅데이터의 취급하기 어려운 점을 극복한 두 가지 대표 기술 일단 현대에 들어오면서 대량의 데이터를 작은 회사에서도 다룰 수 있는 기회가 많아지고 그 데이터 안에 새로운 가치를 창출하거나 의사 결정을 위해 이용하는 일이 보편화되었다고 말할 수 있다. 가장 대표적으로 클라우드 가 발전함에 따라 회사에 규모에 의해 좌우되었던 infrastructure 가 극복 되면서 누구라도 대용량 데이터를 다룰 수 있는 기회가 주어졌음 물론 돈만 있다면 ㅎ 빅데이터를 취급하기 어려운 이유는 2가지라고 볼 수 있다 데이..

반응형