본문 바로가기

반응형

(20)
Chapter 2. 클라이언트에서 데이터 가져오기: 데이터 수집 우리가 다루는 첫 번째 단계인 수집 단계(Collection tier)는 우리의 스트리밍 시스템으로 데이터를 입수하는 지점이다. 수집 단계를 강조한 스트리밍 데이터 아키텍처는 다음 과 같다. 2.1 일반적인 통신 패턴 오늘날, 클라이언트에서 생성되는 데이터를 시스템에 입수하기 위해(또는 수집 단계에서 서버가 직접 데이터를 Pulling 하기 위해) 몇 안되는 프로토콜을 사용한다 만물 인터넷의 등장으로 다양한 통신 패턴들이 존재하겠지만. 다음과 같은 몇 가지 통신 패턴 중 한 가지 패턴을 선택하여 통신하는 것이 일반적이다. 요청/응답 패턴 (Request/response pattern) 발행/구독 패턴 (Publish/subscribe pattern) 단방향 패턴 (One-way pattern) 요청/확인..
Chapter 1. 스트리밍 데이터 소개 1. 스트리밍 데이터 소개 2013년 5월, 스칸다니비아 연구 센터에서 발간한 보고서에 따르면 전 세계에 존재하는 90% 가량의 데이터는 자닌 2년 안에 생성되었다고 추정했다 2014년 EMC가 IDC와 함께 파트너십을 맺고 디지털 유니버스 연구를 발표 했는데 디지털 유니버스의 규모가 2년마다 두 배로 증가하고 있으며 2013년부터 2020년 사이에 4조 4천억 기가바이트에서 44조 기가바이트로 10배 증가할 것으로 보고 했다 빅데이터라는개념은 오랜기간 존재했지만 수집, 적재, 분석하는 기술을 갖게 된 것은 그리 오래되지 않았다 이로써 빅데이터를 기반으로 빠른 의사 결정을 내리고 소비자와 기업 주변에서 일어나는일을 서비스에서 활용하여 사용할 수 있게 되었다 하지만 기술만 있다고 빅데이터를 잘 다룰 수 있..
Part 1 - [Chapter 2] . 데이터 엔지니어링 수명 주기 (1) 이 책의 주요 목표는 데이터 엔지니어링을 특정 데이터 기술의 집합으로 보는 관점에서 벗어나도록 장려하는 것이다 기술적인 추상화가 확대됨에 따라 데이터 엔지니어는 점점 데이터 수명 주기 관리 원칙의 관점에서 사고하고 운영하는 데이터 수명 주기 엔지니어가 될 것이다. 2장에서는 이 책의 중심 주제인 데이터 엔지니어링 수명 주기를 설명한다 데이터 엔지니어링수명 주기는 요람에서 무덤까지(즉, 그 생성부터 소멸까지) 데이터 엔지니어링을 설명하는 프레임워크다 2.1 데이터 엔지니어링 수명 주기란? 데이터 엔지니어링 수명 주기는 원시 데이터 (raw data)의 요소를 분석가, 과학자, ML엔지니어 들이 사용할 수 있는 유용한 최종 제품으로 전환하는 단계로 구성된다. 2장에서는 데이터 엔지니어링 수명 주기의 주요 단..
Chapter 3. Kafka Producer [카프카로 메시지 전달하기] 3.3 카프카로 메시지 전달하기 메시지를 전송하는 가장 간단한 방법은 다음과 같다 try (Producer producer = new KafkaProducer(kafkaProps)) { // 메시지 생성 및 토픽으로 전송 String message = "Hello, Kafka!"; ProducerRecord record = new ProducerRecord(topic, message); producer.send(record); System.out.println("메시지 전송 성공: " + message); } catch (Exception e) { e.printStackTrace(); } 1. producer는 ProducerRecord 객체를 받으므로 이 객체를 생성하는 것에부터 시작함. 조금 있다가 ..
Chapter 2. 설치와 설정 (1) 2.2.3 서버 연결 테스트 다음과 같이 여러 가지 형태의 명령행 인자를 넣어 접속을 시도할 수 있다. linux> mysql -u root -p --host=localhost --socket=/tmp/mysql.sock linux> mysql -u root -p --host=127.0.0.1 --port=3306 linux> mysql -u root -p 2.2.3.1 linux> mysql -u root -p --host=localhost --socket=/tmp/mysql.sock MySQL socket file을 이용해 접속하는 예제다 2.2.3.2 linux> mysql -u root -p --host=127.0.0.1 --port=3306 TCP/IP를 통해 로컬호스트로 접속하는 예제인데, 이..
Chapter 3. Kafka Producer [카프카에 메시지 쓰기] 카프카를 큐로 사용하든 메시지 버스나 데이터 저장 플랫폼(data storage platform)으로 사용하든 간에 카프카를 사용할 때는 카프카에 데이터를 쓸 때 사용하는 프로듀서나 읽어 올때 사용하는 컨슈머, 혹은 두 가지 기능 모두를 수행하는 application을 생성해야한다 카프카는 개발자들이 카프카와 상호작용하는 application을 개발할 때 사용할 수 있는 client API와 함께 배포된다. 프로듀서의 디자인과 주요 요소의 전체적인 모습을 살펴본 뒤 KafkaProducer 와 ProducerRecord 객체를 어떻게 생성하는지, 어떻게 카프카에 레코드를 전송하는지, 그리고 리턴할 수 있는 에러를 어떻게 처리 대응하는지 알아보자 끝으로 파티션 할당 방식을 정의하는 파티셔너과 객체의 직렬화..
Part 1. 데이터 엔지니어링 기반 구축하기 (3) 1.2 데이터 엔지니어링 기술과 활동 데이터 엔지니어의 기술 역량에는 1. 보안, 2. 데이터 관리, 3. 데이터 옵스, 4. 데이터 아키텍처 및 소프트웨어 엔지니어링 이렇게 4가지의 데이터 엔지니어링의 '드러나지 않는 요소'가 포함된다 이러한 기술 역량을 사용하려면 데이터 도구들을 평가하는 방법과 데이터 엔지니어링 수명 주기 전반에 걸쳐 이 도구들이 어떻게 조합되는지 알아야함 원천 시스템에서 어떻게 데이터를 처리하고 선별한 후에 분석가와 데이터 과학자가 이를 어떻게 소비하고 가치를 창출할지 파악하는 것도 중요함 마지막으로 데이터 엔지니어는 수많은 복잡한 가변적 요소를 처리하고 비용, 민첩성, 확장성, 단순성, 재사용성, 상호 운용성의 축에 따라 지속해서 최적화를 수행해야함 최근까지 데이터 엔지니어는 데..
Part 1. 데이터 엔지니어링 기반 구축하기 (2) 1.1.3 데이터 엔지니어의 진화 역사는 그대로 반복되지 않지만, 그 흐름은 분명 반복된다 (이거 너무 멋있는거 같아) 호홓 1980 ~ 2000년 까지 : 데이터 웨어 하우징에서 웹으로 데이터 엔지니어의 탄생은 1970년대 까지 거슬러 올라가는 데이터 웨어하우징에 뿌리를 둔다. 비지니스 데이터 웨어하우스 business data warehouse라는 용어는 1980년대에 형성 되었으며, 1989년에 이르러 빌 인먼이 데이터 웨어하우스 라는 용어를 공식적으로 만들었음 데이터 웨어하우징은 시장에 출시되는 대량의 데이터를 처리하고 전례 없는 막대한 양의 데이터를 지원하고자, 다수의 프로세서를 사용하는 새로운 대규모 병렬 처리(MPP[Massively Parallel Computer]) 그리고 데이터베이스로 ..

반응형