본문 바로가기

반응형

책/견고한 데이터 엔지니어링

(5)
Part 1 - [Chapter 2] . 데이터 엔지니어링 수명 주기 (2) 2.1.3 데이터 저장 데이터를 저장할 공간이 필요하다, 스토리지 설루션을 선택하는 것은 나머지 데이터 수명주기에서 성공을 거두기 위한 열쇠이면서, 다음과 같은 다양한 이유로 데이터 수명 주기에서 가장 복잡한 단계의 하나다 첫째, 클라우드의 데이터 아키텍처는 종종 여러 스토리지 설루션을 활용함 둘째, 복잡한 변환 쿼리를 지원하는 데이터 스토리지 설류션은 순수하게 스토리지로만 작동하는 경우가 거의 없으며 많은 설루션이 복잡한 쿼리를 지원한다 심지어 객체 스토리지 설루션도 Amazon S3 Select와 같은 강력한 쿼리 기능을 지원할 수 있다 셋째, 저장은 데이터 엔지니어링 수명 주기의 한 단계이지만 변환 및 서비스 제공과 같은 다른 단계에서도 자주 관여한다 둘쨰가 참 흥미로운데 이게 보면 대표적으로 S3..
Part 1 - [Chapter 2] . 데이터 엔지니어링 수명 주기 (1) 이 책의 주요 목표는 데이터 엔지니어링을 특정 데이터 기술의 집합으로 보는 관점에서 벗어나도록 장려하는 것이다 기술적인 추상화가 확대됨에 따라 데이터 엔지니어는 점점 데이터 수명 주기 관리 원칙의 관점에서 사고하고 운영하는 데이터 수명 주기 엔지니어가 될 것이다. 2장에서는 이 책의 중심 주제인 데이터 엔지니어링 수명 주기를 설명한다 데이터 엔지니어링수명 주기는 요람에서 무덤까지(즉, 그 생성부터 소멸까지) 데이터 엔지니어링을 설명하는 프레임워크다 2.1 데이터 엔지니어링 수명 주기란? 데이터 엔지니어링 수명 주기는 원시 데이터 (raw data)의 요소를 분석가, 과학자, ML엔지니어 들이 사용할 수 있는 유용한 최종 제품으로 전환하는 단계로 구성된다. 2장에서는 데이터 엔지니어링 수명 주기의 주요 단..
Part 1. 데이터 엔지니어링 기반 구축하기 (3) 1.2 데이터 엔지니어링 기술과 활동 데이터 엔지니어의 기술 역량에는 1. 보안, 2. 데이터 관리, 3. 데이터 옵스, 4. 데이터 아키텍처 및 소프트웨어 엔지니어링 이렇게 4가지의 데이터 엔지니어링의 '드러나지 않는 요소'가 포함된다 이러한 기술 역량을 사용하려면 데이터 도구들을 평가하는 방법과 데이터 엔지니어링 수명 주기 전반에 걸쳐 이 도구들이 어떻게 조합되는지 알아야함 원천 시스템에서 어떻게 데이터를 처리하고 선별한 후에 분석가와 데이터 과학자가 이를 어떻게 소비하고 가치를 창출할지 파악하는 것도 중요함 마지막으로 데이터 엔지니어는 수많은 복잡한 가변적 요소를 처리하고 비용, 민첩성, 확장성, 단순성, 재사용성, 상호 운용성의 축에 따라 지속해서 최적화를 수행해야함 최근까지 데이터 엔지니어는 데..
Part 1. 데이터 엔지니어링 기반 구축하기 (2) 1.1.3 데이터 엔지니어의 진화 역사는 그대로 반복되지 않지만, 그 흐름은 분명 반복된다 (이거 너무 멋있는거 같아) 호홓 1980 ~ 2000년 까지 : 데이터 웨어 하우징에서 웹으로 데이터 엔지니어의 탄생은 1970년대 까지 거슬러 올라가는 데이터 웨어하우징에 뿌리를 둔다. 비지니스 데이터 웨어하우스 business data warehouse라는 용어는 1980년대에 형성 되었으며, 1989년에 이르러 빌 인먼이 데이터 웨어하우스 라는 용어를 공식적으로 만들었음 데이터 웨어하우징은 시장에 출시되는 대량의 데이터를 처리하고 전례 없는 막대한 양의 데이터를 지원하고자, 다수의 프로세서를 사용하는 새로운 대규모 병렬 처리(MPP[Massively Parallel Computer]) 그리고 데이터베이스로 ..
Part 1. 데이터 엔지니어링 기반 구축하기 (1) 1. 1 데이터 엔지니어링 이란? 데이터 엔지니어링이라는 용어에 수많은 정의가 존재한다 데이터 엔지니어링은 회사의 조직 내의 다른 전문가가 데이터를 사용할 수 있도록 만드는 일련의 작업이다. 대규모의 데이터를 수집 및 저장하면서 추가 분석을 수행할 수 있는 데이터를 준비하기 위한 시스템을 설계하고 구축하려면 데이터엔지니어와 같은 전담 전문가가 필요하다 간단하게 말해서 조직의 데이터 인프라를 구축하고 운영해 분석가와 과학자가 추가 분석을 수행할 수 있도록 준비하는 것 데이터 엔지니어링 의 유형 1. 첫 번째 유형은 SQL 중심이다 데이터의 작업 및 기본 저장소는 관계형 데이터 베이스에 있음 2. 빅데이터 중심 데이터 작업 및 기본 스토리지는 하둡 카산드라 HBase 와 같은 빅데이터 기술에 기반함 2.1 ..

반응형