본문 바로가기

반응형

오류모음집/spark

(4)
ValueError: Cannot convert column into bool: please use '&' for 'and', '|' for 'or', '~' for 'not' when building DataFrame boolean expressions. def convert_value_na_to_null(value): if value is None or (value == "") or (value.upper() == "NA"): return None else: return int(value) udf_convert_value_na_to_null = udf(convert_string_na_to_null, IntegerType()) converted_df3 = ( converted_df2. withColumn("year", convert_string_na_to_null(col("year"))). withColumn("month", convert_string_na_to_null(col("month"))). withColumn("dayofmonth", conver..
WARN package: Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.sql.debug.maxToStringFields'. 대처 방안 경고문에서 볼 수 있듯이 표시하려는 데이터의 양이 너무 커서 성능상 저하가 일어날 수 있기에 중간이 끊음 이걸 조절하는 conf config("spark.sql.debug.maxToStringFields", int(~~)") 조절하면 됨 기본값은 200으로 알 고 있음
Some data may have been lost because they are not available in Kafka any more; either thedata was aged out by Kafka or the topic may have been deleted before all the data in thetopic was processed. If you don't want your streaming query to fail on such .. 대처 방안 spark-stearming 은 checking-point 으로 마지막으로 종료했던 지점을 다시 불러서 처리할 수 있도록 가용성과 일관성을 높혀줄 수 있음 하지만 해당 kafak-pyspark streaming 을 이용했을때 kafka topic명 까지 저장해서 다시 불러올 때 사용하는데 이때 kafka 에서 초기화를 하거나 Topic의 변경사항이 있을 경우 pyspark 측에서 Topic 을 못찾거나 실행 지점을 찾을 수 없을때 오류를 뱉을 수 있음 .checkpoint 제거 후 실행해볼것 kafka 변경사항을 찾아볼것 failOnDataLoss 이 기능을 false 로 활성화 하면 됨 하지만 이럴 경우 메시지 유실이 있음 전송에만 목적이 있다면 상관이 없음
WARN Utils: Service 'sparkDriver' could not bind on a random free port. You may check whether configuring an appropriate binding address. 대처 방안 네이버 블로그 발췌 [Spark 에러] Service 'sparkDriver' could not bind on a random free port. /etc/host 파일에 hostname 작성 스파크 내에서 host 바인딩이 제대로 안되서 발생하는 원인 hostname 해서 host name 획득 후 위 파일에서 127.0.0.1 작성

반응형