1. 1 데이터 엔지니어링 이란?
데이터 엔지니어링이라는 용어에 수많은 정의가 존재한다
데이터 엔지니어링은 회사의 조직 내의 다른 전문가가 데이터를 사용할 수 있도록 만드는 일련의 작업이다.
대규모의 데이터를 수집 및 저장하면서 추가 분석을 수행할 수 있는 데이터를 준비하기 위한 시스템을 설계하고
구축하려면 데이터엔지니어와 같은 전담 전문가가 필요하다
간단하게 말해서 조직의 데이터 인프라를 구축하고
운영해 분석가와 과학자가 추가 분석을 수행할 수 있도록 준비하는 것
데이터 엔지니어링 의 유형
1. 첫 번째 유형은 SQL 중심이다 데이터의 작업 및 기본 저장소는 관계형 데이터 베이스에 있음
2. 빅데이터 중심 데이터 작업 및 기본 스토리지는 하둡 카산드라 HBase 와 같은 빅데이터 기술에 기반함
2.1 데이터 처리는 MapReduce, Spark, Flink 와 같은 Framework에서 수행됨
1.1.1 데이터 엔지니어링의 정의
결국 공통된 맥락을 풀어보면 "데이터 엔지니어가 데이터를 가져와 저장하고, 과학자나 분석가 등이 사용할 수 있도록 준비한다 라는 분명한 패턴이 나오게 됨 결국 이책에서 데이터 엔지니어를 다음과 같이 정의할 수 있음
데이터 엔지니어는 원천 시스템에서 데이터를 가져오는 것부터 시작해 분석 또는 머신러닝 과 같은 사용 사례에 데이터를 제공하는 것으로 끝나는 데이터 엔지니어링 수명 주기를 관리
결국 데이터 엔지니어링 수명 주기는 기술을 벗어나 데이터 자체와 데이터가 제공해야하는 최종 목표에 관한 논의로 전환이 됨
즉 데이터의 신선도 데이터관리에 초점이 맞춰지지 않는가
- 데이터 생성
- 데이터 저장
- 데이터 수집
- 데이터 변환
- 데이터 서빙
데이터 엔지니어를 좀 더 정확하게 묘사 하자면 데이터 수명 주기 엔지니어 로 표현할 수 있다고 볼 수 있다
더 강화된 추상화와 단순화 덕분에 더는 빅데이터 프레임워크의 세부 사항의 방해를 받지 않는다
예전과 다르게 추상화가 잘되어 있기에
잘 조합해서 상황에 맞게 사용하는 것이 능력으로 볼 수 있다
많은 회사들이 데이터 회사로 탈바꿈 하면서 좀 더 데이터의 중요성이 명확하게 들어나는 지금
사실상 현재를 데이터 수명 주기 관리의 황금기로 보고 있다고 볼 수 있다 데이터 엔지니어링 수명 주기를 관리 하는 데이터 엔지니어는 그 어느 때보다 더 나은 도구와 기술을 보유하고 있다 작은 회사들 도 큰 데이터를 처리할 수 있는 힘이 생기고 프레임워크와 클라우드의 대중화 가 되면서 대기업 도 이제 무시 못할 수준까지 올라온것도 사실이다 .
'책 > 견고한 데이터 엔지니어링' 카테고리의 다른 글
Part 1 - [Chapter 2] . 데이터 엔지니어링 수명 주기 (2) (0) | 2024.01.08 |
---|---|
Part 1 - [Chapter 2] . 데이터 엔지니어링 수명 주기 (1) (0) | 2023.12.20 |
Part 1. 데이터 엔지니어링 기반 구축하기 (3) (0) | 2023.12.18 |
Part 1. 데이터 엔지니어링 기반 구축하기 (2) (0) | 2023.12.17 |