본문 바로가기

오류모음집/spark

Some data may have been lost because they are not available in Kafka any more; either thedata was aged out by Kafka or the topic may have been deleted before all the data in thetopic was processed. If you don't want your streaming query to fail on such ..

반응형

  1. 대처 방안
    • spark-stearming 은 checking-point 으로 마지막으로 종료했던 지점을 다시 불러서 처리할 수 있도록 가용성과 일관성을 높혀줄 수 있음
      • 하지만 해당 kafak-pyspark streaming 을 이용했을때 kafka topic명 까지 저장해서 다시 불러올 때 사용하는데 이때 kafka 에서 초기화를 하거나 Topic의 변경사항이 있을 경우
        • pyspark 측에서 Topic 을 못찾거나 실행 지점을 찾을 수 없을때 오류를 뱉을 수 있음
    • .checkpoint 제거 후 실행해볼것
    • kafka 변경사항을 찾아볼것
    • failOnDataLoss 이 기능을 false 로 활성화 하면 됨
      • 하지만 이럴 경우 메시지 유실이 있음
        • 전송에만 목적이 있다면 상관이 없음
반응형