본문 바로가기

추천시스템 프로젝트(DACOS)

12/23 - 추천시스템 모델 생성

 

기존 진행 상황

- 데이터 크롤링 완료

- 카페/ 식당/ 술집으로 분류 완료

- 리뷰 텍스트와 입력 텍스트 간 유사도 검출에 BERT 사용 시도

 

모델 생성 방안

- 컨텐츠 기반 필터링 1: 사용자 선택 태그와 가게 키워드 리뷰로 1차 유사도 검사

- 컨텐츠 기반 필터링 2: 사용자가 입력한 텍스트와 특수 태그, 장소 텍스트 리뷰간 유사도 검사

- 컨텐츠 기반 필터링 3: 사용자의 그동안의 리뷰와 장소의 유사도 검사

 

최종 모델:

1에서 최소 threshold를 만족하는 가게들에 한하여 2와 3에서 각각 나온 결과와 가중치를 곱한 값을 더해서 결정

 

텍스트 유사도 검사 모델로 BERT 사용의 문제: 추천시스템은 입력 텍스트와의 유사도 검출이 즉각적으로 이루어져야 하는 반면, BERT는 모델이 무거워 전체 리뷰와 비교하려면 최소 2~3분 이상의 시간이 필요함

 

따라서 상대적으로 경량 모델인 TF-IDF 사용하여 실시간 추천을 가능하도록 함

 

결과: 2~3분 >> 3~4초로 시간 단축

BERT보다 복잡한 표현이나 유사어를 감지하는 데에서 낮은 성능을 보였으나 최종적인 추천 결과에는 큰 영향을 미치지 않는 것으로 확인

 

 

예시1) 입력 텍스트: 공부하기 좋은 곳

 

 

예시2) 입력 텍스트: 마카롱 파는 곳

 

 

추후 작업

- TF-IDF 기반 유사도 검출 후 높은 순위를 가진 가게들에 대해서만 BERT 기반 유사도 검증 시도 예정

- 사용자 기반 추천에 대하여 코드 공부 후 간단한 코사인 유사도 검출 시도 예정