본문 바로가기

반응형

분류 전체보기

(73)
chapter 1. 빅데이터의 기초 지식 1-1 빅데이터의 정착 '분산 시스템의 발전'과 '클라우드의 서비스의 보급'에 따라 대량의 데이터를 효율적으로 처리하는 일이 어렵게 되면서 분산처리가 발달되었다.. 분산 시스템에 의한 데이터 처리의 고속화 - 빅데이터의 취급하기 어려운 점을 극복한 두 가지 대표 기술 일단 현대에 들어오면서 대량의 데이터를 작은 회사에서도 다룰 수 있는 기회가 많아지고 그 데이터 안에 새로운 가치를 창출하거나 의사 결정을 위해 이용하는 일이 보편화되었다고 말할 수 있다. 가장 대표적으로 클라우드 가 발전함에 따라 회사에 규모에 의해 좌우되었던 infrastructure 가 극복 되면서 누구라도 대용량 데이터를 다룰 수 있는 기회가 주어졌음 물론 돈만 있다면 ㅎ 빅데이터를 취급하기 어려운 이유는 2가지라고 볼 수 있다 데이..
Pandas concat -> Groupby 이후 KeyError: 'columns' 발생경위 2개의 데이터프레임을 concat 하고 groupby -> mean 이후 컬럼 접근 대처방안 timestamp 열이 index로 설정되어 있기 때문 그렇기에 timestamp는 column이 아닌 index로 잡히기 때문에 접근이 불가함 대처법은 reset_index() 함수를 사용하여 열로 변환 하면 됨 import pandas as pd import pandas as pd # 첫 번째 데이터프레임 생성 df1 = pd.DataFrame({'일자': ['2020-01-01', '2020-01-02', '2020-01-03'], '값1': [10, 20, 30]}) # 두 번째 데이터프레임 생성 df2 = pd.DataFrame({'일자': ['2020-01-03', '2020-01-04', '..
ImportError: attempted relative import with no known parent package 발생경위 라이브러리 가지고 올때 경로 . (온점)은 현재 디렉토리를 말하는건데 import 하는 모듈이 패키기의 일부가 아니거나 존재 하지 않을때 발생함 대처방안 파일 위치를 보고 접근하도록 하자 해당 모둘이 패키지에 포함되어 있는지 확인해보자 패키지 구조가 잘되어 있는지 확인해보자
session session 이란!? 클라이언트별 정보를 브라우저가 아닌 웹서버에 저장하는것 클라이언트의 정보를 웹브라우저에 저장하는 기술을 cookie 라고 함 django session은 쿠키에 session_id 만 저장하고 클라이언트의 연결성을 확보한뒤 session_id 통해 활동할 수 있음 HTTP PROTOCOL 의 특징 비연결 지향(connection-less) 클라이언트가 request를 서버에 보내고, 서버가 클라이언트에 요청에 맞는 response를 보내면 바로 연결을 끊음 상태 정보 유지 안함(stateless) 연결을 끊는 순간 클라이언트와 서버의 통신은 끝나며 상태 정보를 유지하지 않음 쿠키와 세션의 필요성 HTTP protocol은 위와 같은 특징으로 모든 요청 간 의존관계가 없음 즉, 현재..
Some data may have been lost because they are not available in Kafka any more; either thedata was aged out by Kafka or the topic may have been deleted before all the data in thetopic was processed. If you don't want your streaming query to fail on such .. 대처 방안 spark-stearming 은 checking-point 으로 마지막으로 종료했던 지점을 다시 불러서 처리할 수 있도록 가용성과 일관성을 높혀줄 수 있음 하지만 해당 kafak-pyspark streaming 을 이용했을때 kafka topic명 까지 저장해서 다시 불러올 때 사용하는데 이때 kafka 에서 초기화를 하거나 Topic의 변경사항이 있을 경우 pyspark 측에서 Topic 을 못찾거나 실행 지점을 찾을 수 없을때 오류를 뱉을 수 있음 .checkpoint 제거 후 실행해볼것 kafka 변경사항을 찾아볼것 failOnDataLoss 이 기능을 false 로 활성화 하면 됨 하지만 이럴 경우 메시지 유실이 있음 전송에만 목적이 있다면 상관이 없음
WARN Utils: Service 'sparkDriver' could not bind on a random free port. You may check whether configuring an appropriate binding address. 대처 방안 네이버 블로그 발췌 [Spark 에러] Service 'sparkDriver' could not bind on a random free port. /etc/host 파일에 hostname 작성 스파크 내에서 host 바인딩이 제대로 안되서 발생하는 원인 hostname 해서 host name 획득 후 위 파일에서 127.0.0.1 작성
static 라이브러리 헷갈림 주의 대처 방안 라이브러리 잘쓸것 # 이걸로 사용할것 from django.conf.url.static import static(o) # 라이브러리 헷갈림 from djagno.conf.url import static (x)
ValidationError no attribute get form 에서 override 진행할때 validation 부분 즉 나와 같은 경우 clean 을 override 를 진행 했는데 raise 부분 즉 validation 을 하기 위한 과정이 return 으로 되어 있나 확인할것 forms.ValidationError는 return 이 아닌 raise 를 사용함

반응형