본문 바로가기

책/견고한 데이터 엔지니어링

Part 1. 데이터 엔지니어링 기반 구축하기 (1)

반응형

짹짹

 

1. 1 데이터 엔지니어링 이란?

데이터 엔지니어링이라는 용어에 수많은 정의가 존재한다 

 

데이터 엔지니어링은 회사의 조직 내의 다른 전문가가 데이터를 사용할 수 있도록 만드는 일련의 작업이다. 

대규모의 데이터를 수집 및 저장하면서 추가 분석을 수행할 수 있는 데이터를 준비하기 위한 시스템을 설계하고

구축하려면 데이터엔지니어와 같은 전담 전문가가 필요하다 

 

 간단하게 말해서 조직의 데이터 인프라를 구축하고
운영해 분석가와 과학자가 추가 분석을 수행할 수 있도록 준비하는 것

 

 

 

데이터 엔지니어링 의 유형 

1. 첫 번째 유형은 SQL 중심이다 데이터의 작업 및 기본 저장소는 관계형 데이터 베이스에 있음 

2. 빅데이터 중심 데이터 작업 및 기본 스토리지는 하둡 카산드라 HBase 와 같은 빅데이터 기술에 기반함 

    2.1 데이터 처리는 MapReduce, Spark, Flink 와 같은 Framework에서 수행됨 

 

 

 

 

1.1.1 데이터 엔지니어링의 정의 

결국 공통된 맥락을 풀어보면 "데이터 엔지니어가 데이터를 가져와 저장하고, 과학자나 분석가 등이 사용할 수 있도록 준비한다 라는 분명한 패턴이 나오게 됨 결국 이책에서 데이터 엔지니어를 다음과 같이 정의할 수 있음 

 

데이터 엔지니어는 원천 시스템에서 데이터를 가져오는 것부터 시작해 분석 또는 머신러닝 과 같은 사용 사례에 데이터를 제공하는 것으로 끝나는 데이터 엔지니어링 수명 주기를 관리 

 

 

 

결국 데이터 엔지니어링 수명 주기는 기술을 벗어나 데이터 자체와 데이터가 제공해야하는 최종 목표에 관한 논의로 전환이 됨 

즉 데이터의 신선도 데이터관리에 초점이 맞춰지지 않는가 

  1. 데이터 생성 
  2. 데이터 저장 
  3. 데이터 수집 
  4. 데이터 변환 
  5. 데이터 서빙 

 

데이터 엔지니어를 좀 더 정확하게 묘사 하자면 데이터 수명 주기 엔지니어 로 표현할 수 있다고 볼 수 있다 

더 강화된 추상화와 단순화 덕분에 더는 빅데이터 프레임워크의 세부 사항의 방해를 받지 않는다 

 

예전과 다르게 추상화가 잘되어 있기에

잘 조합해서 상황에 맞게 사용하는 것이 능력으로 볼 수 있다

 

 

 

 

많은 회사들이 데이터 회사로 탈바꿈 하면서 좀 더 데이터의 중요성이 명확하게 들어나는 지금 

사실상 현재를 데이터 수명 주기 관리의 황금기로 보고 있다고 볼 수 있다 데이터 엔지니어링 수명 주기를 관리 하는 데이터 엔지니어는 그 어느 때보다 더 나은 도구와 기술을 보유하고 있다 작은 회사들 도 큰 데이터를 처리할 수 있는 힘이 생기고 프레임워크와 클라우드의 대중화 가 되면서 대기업 도 이제 무시 못할 수준까지 올라온것도 사실이다 . 

 

 

 

 

반응형