본문 바로가기

추천시스템 프로젝트(DACOS)

5주차 - 웹사이트 크롤링 및 데이터 전처리

프로젝트 정보

 

데이터 크롤링 목표 1

  • 수집해야 할 것: 가게별 태그+ 태그 수
  • 가게별 특성 파악용

>> 완료

 

데이터 크롤링 목표 2

  • 가게별 인기순 상위 리뷰 20개
  • 사용자 ID / 예약유무, 대기시간, 방문목적, 누구와 함께 / 태그 전체
  • 1, 2번을 바탕으로 해당 가게의 성향 파악 기대

>> 완료

 

데이터 크롤링 목표 3

  • 랜덤한 사용자 각 20명 선정 후 (총 80명) 해당 사용자들의 리뷰 20개 크롤링
  • 사용자 ID / 식당별 예약유무, 대기시간, 방문목적, 누구와 함께 / 태그 전체
  • 이를 기반으로 해당 사용자의 성향 파악 후 맞춤형 추천 가능할 것 기대

>> 완료

 

 

 

전처리 작업 진행 상황

 

데이터 크롤링 목표1: 전처리 따로 필요 x

 

데이터크롤링 목표2

- 대기시간은 연속형 변수로, 나머지는 각 태그의 존재 여부를 (True/ False) 로 처리

- 중복 선택 가능한 태그는 ', '를 기준으로 분리하여 각각 따로 처리

- NaN 값은 일정 비율 이상으로 한 값이 존재하거나, 특정 값이 예상 가능한 경우에만 채워넣고, 리뷰 태그와 같은 경우에는 비어있는 데이터 상태 그대로 처리

 

데이터크롤링 목표3

- 사용자의 리뷰 내 각 태그의 수를 세서 각 항목을 연속형 변수로 처리

 

 

추후 목표: 전처리 결과에 대해 논의 후 특성 선택 등 추가적인 전처리 진행, 모델링 방안 논의