본문 바로가기

데이터 엔지니어링/데이터 엔지니어링

예전 -> 현재 로 오면서 데이터를 다루는 행위의 변화

반응형

Modern data engineering architecture 

과거에는 클라우드의 발전이 많이 되지 않았고 데이터가 나올 곳이 정해져 있기 때문에 다음과 같은 3가지가 대표적이였다 

1. 컴퓨팅 파워와 용량이 너무 비쌋음 

2. 용도가 정해져 있었음 ( 데이터의 종류와 쓰임새가 복합적이지 않았음)

3. 데이터가 나올 곳이 정해져 있었다 

 

그래서 data warehouse라고 해서 한번 만들면 잘 변환하지 않았음

즉 과거에는 

데이터의 변동이 별로 없었기에 스키마를 미리 만들고 한번 만들면 잘 변경하지 않았기 떄문에 

효율적인 데이터베이스 모델링이 중요했었음 

 

그렇기 떄문에 (ETL 메타) 

E 추출 (Extract) T 변환 (Tranform) L 저장 (Load) 

으로 주로 진행을 하였음 

 

 

하지만..!! 

멈춰!!

 

 

 현대 사회에 들어오면서 데이터로 할 수 있는 일이 굉장히 많아지면서
위에서 말했던 형식으로는 부족함을 느낌 

 

엣헴..!

  1. 실시간성을 요구하는 기능들
    1. 데이터가 들어오는 곳이 정해져있지 않기 떄문에.. 
  2. 빨라지는 기능 추가 
    1. 사용자의 요구사항이 많아짐 
  3. 실시간 로그 
  4. 비정형 데이터 
  5. 서드 파티 데이터 

즉 데이터가 들어오는 곳이 정해져 있지 않고 사용자의 요구사항이 높아지고 비정형 데이터(text, sound 등등)이 등장하면서 

데이터의 형식이 다양해지고 형태를 예측하기 블가능해졌으므로 스키마를 정의하기가 힘들어졌다는 얘기 

그리고 결정적으로 클라우드 같은 컴퓨팅 파워도 많이 저렴해졌다는것이 가장 큰 이유이지 않나 싶음 

그러기에 최대한 많은 양의 데이터를 미리 저장하고 프로세싱을 더  할 수 있어 생산성이 올라간것이 한 몫 함  더군나나

클라우드의 가장 큰 장점이자 내 생각의 가장 큰 슬로건이라고 할 수 있는 

 

클라우드는 적재적소에
빠르게 만들고
빠르게 버릴 수 있어야한다

 

그렇기에 일반적인 회사에서는 비용최적화 보다는 비즈니스와 속도를 최적화하는 쪽이 가장 이득이라는 말

 

그래서 현대 사회로 오면서 

데이터가 너무 많이 생기고 들어오니 

ETL -> ELT 로 architecutre를 변환하고 있음 

데이터나 log를 어느정도 정리 후 (E & L) -> 비지니스나 사용자의 편의에 맞게 변환(T)

 

시스템의 복잡도에 따라서 한꺼번에 진행하는 경우 도 있음

 

근데 여기서 ... !!!! 

 

 

I say 잠

you say 깐

 

 

잠깐!!

 

 

이게 시스템이 변해 간다고 해서 ETL을 안쓴다고는 말한 적 없음 
ETL도 충분히 좋은 architecture 이고 상황에 따라서 유기적으로 변환하는거임 

모든 부분에서 ELT를 사용한다는건 억측임 

심지어 ETLV 도 있음 
모든 데이터를 처리를 했다고 해서 검증이됫다고 보장을 못하기에 
더 확신된 데이터를 제공하기위헤서 validation로 추가함 

현대 사회에 오면서 다양한 architecture가 있으니 

매몰 되지 않았음 좋겠음 


Data architecture 를 크게 6가지로 분류하면 

소스 수집 및 변환  저장 과거 예측 출력
비지니스 와
운영 데이터 생성 
운영 시스템에서 데이터 추출 (E)

데이터 저장 및 처리(L)

분석할 수 있게 하거나 쓰임세 있게 변환(T)

ETL <--> ELT
유기적인 존재
데이터를 처리 시스템이 쓸 수 있게 저장 

비용 및 데이터를 사용할 수 있게 확장성 최적화 
1 . 데이터 분석을 위한 인사이트 만들기 

2. 저장 된 데이터를 이용해서 처리 및 사용처에 따라서 분산처리 진행 

3.  classification or Regression을 
    사용해서 예측 및 분류 진행하여 비지니스        적용 

결국 데이터로 데이터 속에 가치를 뽑애내서 
비지니스 창출 --> 이익 창출 
데이터 처리 및 분석 결과 제공 

데이터 모델 및 인공지능 모델을 운영 시스템에 적용함 

 

반응형

'데이터 엔지니어링 > 데이터 엔지니어링' 카테고리의 다른 글

Batch 와 Streaming  (0) 2023.04.10