[TIL] 25.02.26 데이터 분석가 취업 고민 및 조언 정리
·
Today I Learned
Prologue스파크 강의를 듣고, 부트캠프를 마무리 하기 위해 이것저것 고민한 과정을 기록한다.Spark 강의 1주차스파크는?Apache 재단에서 제공중인 무료 대용량 처리 도구100GB 이상의 데이터를 효과적으로 처리 가능다만 몇 십GB의 데이터의 경우는 파이썬만으로 처리하는 것이 더 효과적Out Of Memory 문제파이썬으로 대용량 처리하다 만날 수 있는 문제. 메모리 용량 부족을 뜻함스파크든 파이썬이든 메모리 관리가 중요Memory메모리 = 기억 장치크게 Ram과 Disk로 나눔Ram = 작업 공간 = 요리할 때 도마작업할 때만 단기 기억되고 컴퓨터를 종료하면 삭제됨예) read_csv, 크롬 실행스파크를 통해 램 16GB의 컴퓨터를 여러 대 사용하여 작업을 처리할 수 있어서 사용함Disk(하드..