분류 전체보기 (73) 썸네일형 리스트형 저장소와 검색 (2) 3장 저장소와 검색 (2) 랜덤 I/O 와 순차 I/O랜덤 I/O :디스크에서 데이터가 임의의 위치에 저장되고 그 위치에서 데이터를 읽거나 쓰는 방식 복불복순차 I/O :데이터가 디스크 상의 연속된 위치에 저장되어 순차적으로 읽거나 쓰는 방식 디스크 이동이 최소화 되서 빠른 성능 보장 이전에서 계속해서 보겠다 B Tree BTree(이하 비트리) 비트리 알고리즘은 인덱싱 알고리즘 중에서 가장 일반적으로 사용하고 있고 범용적인 목적으로 사용되는 알고리즘이다 비트리 에서 시작해서 변형 알고리즘이 존재한다 B+Tree 등등 Btree 알고리즘은 원래 값을 변형 시키지 않고 인덱스 구조체 에서 항상 정렬된상태로 유지한다 비트리는 이렇게 생겻다 최상위 노드를 루트노드 중간 노드를 브런치 노드 가장 하위 .. 저장소와 검색 (1) 3장 저장소와 검색 명언부터 시작한다 항상 주변을 단정히 정돈하는 사람은 단지 찾기를 너무 귀찮아하는 사람이다 가장 기본적인 수준에서 데이터베이스는 두 가지 작업을 수행한다 어떤 데이터를 받으면 데이터를 저장하고 나중에 그 데이터를 요청하면 다시 데이터를 제공한다 데이터베이스가 저장과 검색을 내부적으로 처리하는 방법을 application 개발자가 주의해야 하는 이유는 뭘까? 구현하기보단 자기가 현재 처한 상황에 따라서 적합한 저장소 엔진을 선택하는 방법이 좋다 (항상 정답은 없죠 우리 세계에서는 적합하냐 만 존재할뿐..) 많은 데이터베이스들은 내부적으로 추가 전용 데이터 파일인 로그를 사용한다 데이터베이스에서 특정 키의 값을 효율적으로 찾기 위해서 다른 데이터 구조가 필요한데 바로 색인.. 신뢰할 수 있고 확장이 가능하며 유지보수하기 쉬운 어플리케이션 (3) 신뢰성은 얼마나 중요할까?증명되지 않는 시장을 위해 시제품을 개발하는 비용이나 매주 작은 이익률의 서비스를 운영하는 비용을 줄이려신뢰성을 희생해야 하는 상황이 있다 하지만 이 경우에는 비용을 줄여야 하는 시점을 잘 알고 있어야 한다이러한 상황은 뭐가 있을까?시장 검증 전 초기단계고비용 구조를 유지하기보다는 빠른 테스트와 피드백 수집을 통해 시장 반응을 확인하는 게 우선제품-시장 적합성 찾기 전제품이 시장에서 명확한 적합성을 찾지 못했을 때 최소한의 기능으로 테스트하는 것이 효과적높은 경쟁압력의 초반 단계빠르게 움직이는 산업시장에서 초기에는 자리선점이 중요하다고 생각자금 소진 위험할 말은 많으나 말하지 않겠음MVP 개발 단계이것 또한 확장성시스템이 현재 안정적으로 동작한다고 해서 미래에도 안정적으로 동작한.. 2024년 1월 ~ 3월 회고 음... 1분기가 지나고 좀 있으면 2분기가 시작되는 시작.. 나에게 1분기는... 인생의 곡선에 쭉 아래를 찍고 서서히 위로 올라가는 기분이랄까..? J커브에 서 상승 곡선에 다다른 것 같은 느낌이 온다 옛날에는 활활 타오르는 장작이었다면 지금은 은은하게 타오르는 숯이 된 기분이랄까.. 뭔가 사람 자체에 여유가 생기면서 나 자신또한 성장하는 기분이 든다 나라는 사람이 이런 사람이었구나 나는걸.. 연애.. 못했다 아니 일부로 하지 않았다 만약 이전에 내가 연애를 했었더라면 진짠 내 자신이 최악이었다고... 말할 수 있을 거 같다 지금이야 할 수 있겠지 정서상 안정이 되었다고 말할 수 있을 테니깐 나의 상태는 2023년 후반기에 기점으로 사람이 달라졌다고 말할 수 있을 거 같다 사람 자체에 여유가 생겼다고.. Chapter 1. Streaming 101 (2) 진짜 볼때마다 느끼는건데 번역이 너무 아쉬워요... 스트리밍 시스템이 배치 시스템을 이기기 위해서는? 두가지가 필요하다 1. 정확성 (correctness) 정확성은 스트리밍시스템이 배치와 동등해지기 이해 필요한 조건이며, 핵심은 일관성을 제공할 수 있는 스토리지[consistent storage]로 귀결된다 스트리밍 시스템에서는 시간이 지남에 따라 영구 상태를 유지할 수 있는 체크포인트 방법이 필요하다 어떤 스트리밍 프레임워크든 체크포인트를 만듬에 따라서 중복을 최대한 방지하면서 멱등성를 보장하는 시스템을 설계하는것이 가장 이상적인데 과연 스트리밍 시스템에서 멱등성을 100프로 보장할 수 있을까 또한 스토리지는 장애 등의 상황에서도 일관성을 유지할 수 있도록 설계되어야한다. 스파크 스트리밍이 등장하면서.. Chapter 1 . Streaming 101 (1) Streaming 101 스트리밍 데이터 처리 (Streaming data. precessing) 이 주목받는 이유는 다음과 같다 기업의 입장에서는 데이터에 대한 좀 더 시기적절한 통찰력이 중요한 때이고, 스트리밍으로 전환해 이런 통찰력을 빠르게 얻을 수 있다 현대에서는 대규모의 무한 데이터셋이 점점 더 보편화되고 있으며, 이러한 데이터는 끝없이 입력되는 데이터를 다룰 수 있도록 설계된 시스템을 사용하면 더욱 쉽게 처리할 수 있다. 데이터가 도착하는 시점에 처리될 수 있다면 시스템의 작업 부하가 고르게 분산 돼 좀 더 일관되고 예측 가능한 형태로 시스템 자원을 소비할 수 있다 결국 기업이 데이터를 다룰 수 있는 수단이 증가하고 데이터가 나오는 곳이 정해져 있지 않으니 스트리밍으로 전환하여 좀 더 능동적인.. ValueError: Cannot convert column into bool: please use '&' for 'and', '|' for 'or', '~' for 'not' when building DataFrame boolean expressions. def convert_value_na_to_null(value): if value is None or (value == "") or (value.upper() == "NA"): return None else: return int(value) udf_convert_value_na_to_null = udf(convert_string_na_to_null, IntegerType()) converted_df3 = ( converted_df2. withColumn("year", convert_string_na_to_null(col("year"))). withColumn("month", convert_string_na_to_null(col("month"))). withColumn("dayofmonth", conver.. WARN package: Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.sql.debug.maxToStringFields'. 대처 방안 경고문에서 볼 수 있듯이 표시하려는 데이터의 양이 너무 커서 성능상 저하가 일어날 수 있기에 중간이 끊음 이걸 조절하는 conf config("spark.sql.debug.maxToStringFields", int(~~)") 조절하면 됨 기본값은 200으로 알 고 있음 이전 1 2 3 4 5 ··· 10 다음