본문 바로가기

반응형

데이터엔지니어링

(6)
Part 1 - [Chapter 2] . 데이터 엔지니어링 수명 주기 (2) 2.1.3 데이터 저장 데이터를 저장할 공간이 필요하다, 스토리지 설루션을 선택하는 것은 나머지 데이터 수명주기에서 성공을 거두기 위한 열쇠이면서, 다음과 같은 다양한 이유로 데이터 수명 주기에서 가장 복잡한 단계의 하나다 첫째, 클라우드의 데이터 아키텍처는 종종 여러 스토리지 설루션을 활용함 둘째, 복잡한 변환 쿼리를 지원하는 데이터 스토리지 설류션은 순수하게 스토리지로만 작동하는 경우가 거의 없으며 많은 설루션이 복잡한 쿼리를 지원한다 심지어 객체 스토리지 설루션도 Amazon S3 Select와 같은 강력한 쿼리 기능을 지원할 수 있다 셋째, 저장은 데이터 엔지니어링 수명 주기의 한 단계이지만 변환 및 서비스 제공과 같은 다른 단계에서도 자주 관여한다 둘쨰가 참 흥미로운데 이게 보면 대표적으로 S3..
Chapter 2. 클라이언트에서 데이터 가져오기: 데이터 수집 우리가 다루는 첫 번째 단계인 수집 단계(Collection tier)는 우리의 스트리밍 시스템으로 데이터를 입수하는 지점이다. 수집 단계를 강조한 스트리밍 데이터 아키텍처는 다음 과 같다. 2.1 일반적인 통신 패턴 오늘날, 클라이언트에서 생성되는 데이터를 시스템에 입수하기 위해(또는 수집 단계에서 서버가 직접 데이터를 Pulling 하기 위해) 몇 안되는 프로토콜을 사용한다 만물 인터넷의 등장으로 다양한 통신 패턴들이 존재하겠지만. 다음과 같은 몇 가지 통신 패턴 중 한 가지 패턴을 선택하여 통신하는 것이 일반적이다. 요청/응답 패턴 (Request/response pattern) 발행/구독 패턴 (Publish/subscribe pattern) 단방향 패턴 (One-way pattern) 요청/확인..
Part 1 - [Chapter 2] . 데이터 엔지니어링 수명 주기 (1) 이 책의 주요 목표는 데이터 엔지니어링을 특정 데이터 기술의 집합으로 보는 관점에서 벗어나도록 장려하는 것이다 기술적인 추상화가 확대됨에 따라 데이터 엔지니어는 점점 데이터 수명 주기 관리 원칙의 관점에서 사고하고 운영하는 데이터 수명 주기 엔지니어가 될 것이다. 2장에서는 이 책의 중심 주제인 데이터 엔지니어링 수명 주기를 설명한다 데이터 엔지니어링수명 주기는 요람에서 무덤까지(즉, 그 생성부터 소멸까지) 데이터 엔지니어링을 설명하는 프레임워크다 2.1 데이터 엔지니어링 수명 주기란? 데이터 엔지니어링 수명 주기는 원시 데이터 (raw data)의 요소를 분석가, 과학자, ML엔지니어 들이 사용할 수 있는 유용한 최종 제품으로 전환하는 단계로 구성된다. 2장에서는 데이터 엔지니어링 수명 주기의 주요 단..
Part 1. 데이터 엔지니어링 기반 구축하기 (1) 1. 1 데이터 엔지니어링 이란? 데이터 엔지니어링이라는 용어에 수많은 정의가 존재한다 데이터 엔지니어링은 회사의 조직 내의 다른 전문가가 데이터를 사용할 수 있도록 만드는 일련의 작업이다. 대규모의 데이터를 수집 및 저장하면서 추가 분석을 수행할 수 있는 데이터를 준비하기 위한 시스템을 설계하고 구축하려면 데이터엔지니어와 같은 전담 전문가가 필요하다 간단하게 말해서 조직의 데이터 인프라를 구축하고 운영해 분석가와 과학자가 추가 분석을 수행할 수 있도록 준비하는 것 데이터 엔지니어링 의 유형 1. 첫 번째 유형은 SQL 중심이다 데이터의 작업 및 기본 저장소는 관계형 데이터 베이스에 있음 2. 빅데이터 중심 데이터 작업 및 기본 스토리지는 하둡 카산드라 HBase 와 같은 빅데이터 기술에 기반함 2.1 ..
프로그래머스 데이터 엔지니어링 1기 후기 수료한 지는 얼마 지나지 않았습니다 저는 전공자 입니다만 사람들이 흔히 말하는비전공자 관점에서 좋을지 안 좋을지 개인적인 견해를 담고자 합니다 1. 교육의 퀄리티 (사실상 이게 전부) 퀄리티만 보고 따졌을 때는 아~ 이런 느낌이었구나라고 진로 탐색 수준이라고 할 수 있을 거 같습니다 물론 이 프로그래머스 데엔 코스가 모든 걸 챙겨주지 않습니다 숟가락은 주는데 떠먹는 건 자기 자신인 거 같습니다 (뭐든 교육기관이 다 그렇지만요) 제가 생각하는 프로그래머스 데엔 코스의 가장 큰 목적이 네가 이 길이 맞는 거 같아? 이걸로 함축할 수 있을 거 같습니다 모든 강의 수준 이 좋다고는 말할 수 없습니다 Airflow(말단 까지 다루는 것이 아닌 airflow가 이런수준에 이렇게 까지 이용할 수 있구나 수준입니다) ..
예전 -> 현재 로 오면서 데이터를 다루는 행위의 변화 Modern data engineering architecture 과거에는 클라우드의 발전이 많이 되지 않았고 데이터가 나올 곳이 정해져 있기 때문에 다음과 같은 3가지가 대표적이였다 1. 컴퓨팅 파워와 용량이 너무 비쌋음 2. 용도가 정해져 있었음 ( 데이터의 종류와 쓰임새가 복합적이지 않았음) 3. 데이터가 나올 곳이 정해져 있었다 그래서 data warehouse라고 해서 한번 만들면 잘 변환하지 않았음 즉 과거에는 데이터의 변동이 별로 없었기에 스키마를 미리 만들고 한번 만들면 잘 변경하지 않았기 떄문에 효율적인 데이터베이스 모델링이 중요했었음 그렇기 떄문에 (ETL 메타) E 추출 (Extract) T 변환 (Tranform) L 저장 (Load) 으로 주로 진행을 하였음 하지만..!! 현대 사..

반응형