본문 바로가기

반응형

ETL

(2)
chapter 1. 빅데이터의 기초 지식 1-1 빅데이터의 정착 '분산 시스템의 발전'과 '클라우드의 서비스의 보급'에 따라 대량의 데이터를 효율적으로 처리하는 일이 어렵게 되면서 분산처리가 발달되었다.. 분산 시스템에 의한 데이터 처리의 고속화 - 빅데이터의 취급하기 어려운 점을 극복한 두 가지 대표 기술 일단 현대에 들어오면서 대량의 데이터를 작은 회사에서도 다룰 수 있는 기회가 많아지고 그 데이터 안에 새로운 가치를 창출하거나 의사 결정을 위해 이용하는 일이 보편화되었다고 말할 수 있다. 가장 대표적으로 클라우드 가 발전함에 따라 회사에 규모에 의해 좌우되었던 infrastructure 가 극복 되면서 누구라도 대용량 데이터를 다룰 수 있는 기회가 주어졌음 물론 돈만 있다면 ㅎ 빅데이터를 취급하기 어려운 이유는 2가지라고 볼 수 있다 데이..
예전 -> 현재 로 오면서 데이터를 다루는 행위의 변화 Modern data engineering architecture 과거에는 클라우드의 발전이 많이 되지 않았고 데이터가 나올 곳이 정해져 있기 때문에 다음과 같은 3가지가 대표적이였다 1. 컴퓨팅 파워와 용량이 너무 비쌋음 2. 용도가 정해져 있었음 ( 데이터의 종류와 쓰임새가 복합적이지 않았음) 3. 데이터가 나올 곳이 정해져 있었다 그래서 data warehouse라고 해서 한번 만들면 잘 변환하지 않았음 즉 과거에는 데이터의 변동이 별로 없었기에 스키마를 미리 만들고 한번 만들면 잘 변경하지 않았기 떄문에 효율적인 데이터베이스 모델링이 중요했었음 그렇기 떄문에 (ETL 메타) E 추출 (Extract) T 변환 (Tranform) L 저장 (Load) 으로 주로 진행을 하였음 하지만..!! 현대 사..

반응형