[TIL] 25.03.05 SQLD와 SQL 그리고 구미시 버스 프로젝트 시작
·
Today I Learned
Prologue오늘 한 것: SQL 코드카타 89,90번 / SQLD 이론 끝, SQLD 기출 1회차 35번까지 / 구미시 버스 도착시간 예측 논리 정리, 필요한 자료 정리, 자료 요청 전화SQL 코드카타89번 문제 정의목표: 5명 이상의 direct reports(다른 사람을 거치지 않고 바로 보고하는 사람)를 갖고 있는 사원의 이름 구하기= 사원 테이블에서 5개 이상 managerId에 있는 Id의 name = 5명 이상의 manager라는 의미필요 데이터: Employee 테이블해결방법SELECT nameFROM EmployeeWHERE id IN (SELECT managerId FROM Employee GROUP BY managerId HAVING COU..
[TIL] 25.02.26 데이터 분석가 취업 고민 및 조언 정리
·
Today I Learned
Prologue스파크 강의를 듣고, 부트캠프를 마무리 하기 위해 이것저것 고민한 과정을 기록한다.Spark 강의 1주차스파크는?Apache 재단에서 제공중인 무료 대용량 처리 도구100GB 이상의 데이터를 효과적으로 처리 가능다만 몇 십GB의 데이터의 경우는 파이썬만으로 처리하는 것이 더 효과적Out Of Memory 문제파이썬으로 대용량 처리하다 만날 수 있는 문제. 메모리 용량 부족을 뜻함스파크든 파이썬이든 메모리 관리가 중요Memory메모리 = 기억 장치크게 Ram과 Disk로 나눔Ram = 작업 공간 = 요리할 때 도마작업할 때만 단기 기억되고 컴퓨터를 종료하면 삭제됨예) read_csv, 크롬 실행스파크를 통해 램 16GB의 컴퓨터를 여러 대 사용하여 작업을 처리할 수 있어서 사용함Disk(하드..
25.02.16 Olist데이터 SQL 쿼리
·
Today I Learned
Prologue여러 개의 CSV로 되어 있는 Olist 데이터로 SQL 쿼리를 연습한 과정을 적고자 한다.튜터님 파일 읽기dbeaver에서 sql 파일 가져오면 데이터베이스에 연결되지 않는 이슈use 써도 연결이 없다는 에러가 뜸주문 상태별 주문 수 알기-- 1. 기본 데이터: 오더 데이터셋의 주문 상태SELECT order_statusFROM olist_orders_dataset;-- 2. 주문 상태 열을 그룹화SELECT order_statusFROM olist_orders_datasetGROUP BY order_status;-- 3. 그룹별 개수 세기SELECT order_status, COUNT(*) as order_countFROM olist_orders_datasetGROUP BY order_..
[TIL] 25.02.12 A/B 테스트 결과 태블로로 시각화
·
Today I Learned
Prologue태블로로 A/B테스트 결과를 시각화하고, 과제를 진행하면서 어려웠던 점과 개선한 점을 적는다.오늘 목표 SQL 93번까지 풀기-> 태블로 하느라 시간이 없었다.. 태블로 2회차 정리 태블로 특강 3회차 수강 및 정리 태블로 공식 문서 시각화 부분 정리 태블로 개인 과제 제출 아티클 스터디 정리SQL 코드카타90. Confirmation rate 구하기Confirmation : 사용자가 한 모든 request action 중 confirm된 비율right outer join signups: 로그인했는데 request를 아예 하지 않았을 수도 있기때문에 모든 로그인한 회원을 기준으로 하기 위해 right join을 썼다.group by s.user id: 로그인한 회원 모두를 기준으로 그룹으로..
[TIL] 25.02.13 대시보드 인사이트 도출
·
Today I Learned
PrologueSQL 코드카타 문제를 풀고, 만든 대시보드를 튜터님의 설명을 들으며 수정했다. 필터를 워크시트 전체에 적용할 수 있는 점이 놀라웠다. 이래서 태블로를 쓰는구나 싶었다. 또한 대시보드의 인사이트를 도출해보았다. 그 과정을 적어보려 한다.SQL 코드카타91번 홀수인 id, 아닌 조건 설정하기출처: not boring movies영화 정보를 담고 있는 테이블에서 id가 홀수이면서 description이 'boring'이 아닌 영화를 조회해야 했다.MOD(나눌 값, 나누는 수) -> 나머지 출력NOT(조건) -> 조건이 아님두 개를 활용하여 코드를 작성했다.select *from Cinemawhere (MOD(id, 2) = 1) and not(description = 'boring') #odd..