본문 바로가기

반응형

분류 전체보기

(64)
Batch 와 Streaming Batch Processing 배치 (Batch) == 일괄 배치 프로세싱(Batch Processing) == 일괄 처리 많은 양의 데이터를 정해진 시간에 한꺼번에 처리하는 것 한정된 데이터 특정 시간 일괄 처리 실시간 보장이 없을때 데이터를 한꺼번에 처리할 수 있을때 무거운 처리를 할때 (ML) Streaming Processing 실시간으로 쏟아지는 데이터를 계속 처리하는 것 이벤트가 생길 때 마다, 데이터가 들어올때마다 처리 물론 streaming 도 batch 처럼 사용할 수 있음 불규칙적으로 데이터가 들어온다는 가정을 진행해보면 1. 이벤트가 안들어올때 (오랫동안) 2. 여러개의 이벤트가 한꺼번에 올떄 이렬경우 불규칙으로 데이터가 들어오므로 처리하는 데이터가 각각 마다 달라지기 때문에 리소스 ..
예전 -> 현재 로 오면서 데이터를 다루는 행위의 변화 Modern data engineering architecture 과거에는 클라우드의 발전이 많이 되지 않았고 데이터가 나올 곳이 정해져 있기 때문에 다음과 같은 3가지가 대표적이였다 1. 컴퓨팅 파워와 용량이 너무 비쌋음 2. 용도가 정해져 있었음 ( 데이터의 종류와 쓰임새가 복합적이지 않았음) 3. 데이터가 나올 곳이 정해져 있었다 그래서 data warehouse라고 해서 한번 만들면 잘 변환하지 않았음 즉 과거에는 데이터의 변동이 별로 없었기에 스키마를 미리 만들고 한번 만들면 잘 변경하지 않았기 떄문에 효율적인 데이터베이스 모델링이 중요했었음 그렇기 떄문에 (ETL 메타) E 추출 (Extract) T 변환 (Tranform) L 저장 (Load) 으로 주로 진행을 하였음 하지만..!! 현대 사..
신뢰할 수 있고 확장이 가능하며 유지보수하기 쉬운 어플리케이션 (2) 신뢰성 누구나 어떤 것을 신뢰하거나 신뢰하지 않는다는 의미가 무엇인지 직관적인 개념을 가지고 있다 application은 사용자가 기대한 기능을 수행한다 시스템은 사용자가 범한 실수나 예성치 못한 소프트웨어 사용법을 허용할 수 있다 시스템 성능은 예상된 부하와 데이터 양에서 필수적인 사용 사례를 충분히 만족한다 시스템은 허가되지 않는 접근과 오남용을 방지한다 이 모든 것이 "올바르게 동작함" 을 의미하는 경우 무언가 잘못되더라도 지속적으로 올바르게 동작함을 신뢰성의 의미로 이해할 수 있다 잘못될 수 있는 일을 결함(fault) 이라 부른다 그리고 결함을 예측하고 대처할 수 있는 시스템을 내결함성(fault-tolerant) 또는 탄력성(resilent)라고 한다 여기서 내결함성이라는 용어를 살펴보고 가야..
세네카의 말 후기 .. 내가 제일로 좋아하는 고대 철학자 세네카 의 말이 담긴 세네카의 말이라는 책으로 곱씹으면서 읽어보았다.. 책 8page 부터 강렬한 말이 나온다 행복한 삶이란 무엇인가? 모두가 행복하게 살기를 원하지만 정작 행복한 삶이 무엇에 달렸는가를 고민하는 데 까지 생각이 미치지 못한다.. 결국 자연의 섭리에 맞춰서 자신을 조금씩 자아의 존재를 찾으면서 살다 보면 진정한 행복을 얻을 수 있다고 주장한다고 써져 있다 즉, 행복한 삶을 영위하기 위해서 오늘도 고군분투하고 하고 남들과 비교하면서 속상하고 급격하게 찾아온 고난을 이기지 못하고 좌절하면 이 세네카의 책을 읽으면 내가 원했던 행복한 삶이란 내 주체에 대해서 욕망을 컨트롤할 수 있는 하나의 이정표를 얻을 수 있지 않을까 라는 내 개인적인 생각을 담고 있다 결국..
재귀 알고리즘의 기본.. 오늘으 재귀를 알아보자.. 오늘은 진지하게... 도와줘요 스피드웨건..! 재귀 알아보기 어떠한 이벤트를 자기 자신을 포함하고 다시 자기 자신을 사용하여 정의되는 경우를 재귀(recursion)이라고 한다 어려운말인데 쉽게 말해서 자기 자신을 계속 호출한다고 보면 된다 가장 대표적인 예가 피보나치의 수열 또다른건 화면 가운데에 계속해서 자기 화면서 반복해서 나타나는거라고 보면 된다 . 이렇게 자원이 된다면 무한하게 이어지는 자연수(1, 2, 3, 4,5, ---- etc) 처럼 이것을 다음과 같이 정의할 수 있다.. 자연수의 정의 1. 1은 자연수이다 2. 어떤 자연수의 바로 다음 수도 자연수 이다. 무안히 존재하는 자연수를 재귀적 정의(recusive definition)를 사용하여 위의 두 문장으로 정..
🐍 TypeError: object dict can't be used in 'await' expression 발단 사항 -> 비동기 작업중 발생 발단 원인 -> 사용하는 함수 중 비동기 함수로 설정 안한 것이 있으면 일어나는 에러 내가 사용하는 함수 중 비동기가 함수 가 없는지 확인하고 없으면 async 만들어주기 example) import asyncio from typing import Dict def not_data_sync(**data: Dict) -> Dict: return data async def main_function() -> int: data = not_data_sync({"test": "error"}) # ERROR!! return data asyncio.run(main_function())
(빅데이터 처리 분석)뉴욕 택시 데이터를 수집해보자 3탄 전편을 보시려면 이쪽으로 오세요..!! 1탄 https://sky-develop.tistory.com/23 (빅데이터 처리 분석)뉴욕 택시 데이터를 수집해보자 1탄 미국 택시데이터를 분석하여 코로나 전 후 택시 유동량을 관찰 분석하는 조그마한 프로젝트를 진행하려고 한다.! 일단 데이터를 다운로드 사이트는 요기 있다.. https://www.nyc.gov/site/tlc/about/tlc-trip sky-develop.tistory.com 2탄 https://sky-develop.tistory.com/24 (빅데이터 처리 분석)뉴욕 택시 데이터를 수집해보자 2탄 전편 못 보신 분들 이 링크로 전편을 확인해 주세요..! https://sky-develop.tistory.com/23 (빅데이터 처리 분석)뉴욕..
(빅데이터 처리 분석)뉴욕 택시 데이터를 수집해보자 2탄 전편 못 보신 분들 이 링크로 전편을 확인해 주세요..! https://sky-develop.tistory.com/23 (빅데이터 처리 분석)뉴욕 택시 데이터를 수집해보자 1탄 미국 택시데이터를 분석하여 코로나 전 후 택시 유동량을 관찰 분석하는 조그마한 프로젝트를 진행하려고 한다.! 일단 데이터를 다운로드 사이트는 요기 있다.. https://www.nyc.gov/site/tlc/about/tlc-trip sky-develop.tistory.com 데이터 수집 이후 데이터의 칼럼을 먼저 해석을 해보았다 그래야 무엇을 분석해 볼지 명확지니깐! 칼럼의 내용은 다음과 같았다 총 컬럼 개수는 24개였으며 내용은 다음과 같다 약간의 스크롤 압박이 있으니 양해 부탁드립니다. 'hvfhs_license_num' :..

반응형