추천시스템 프로젝트(DACOS)
12/23 - 추천시스템 모델 생성
lee_sy
2024. 12. 26. 06:30
기존 진행 상황
- 데이터 크롤링 완료
- 카페/ 식당/ 술집으로 분류 완료
- 리뷰 텍스트와 입력 텍스트 간 유사도 검출에 BERT 사용 시도
모델 생성 방안
- 컨텐츠 기반 필터링 1: 사용자 선택 태그와 가게 키워드 리뷰로 1차 유사도 검사
- 컨텐츠 기반 필터링 2: 사용자가 입력한 텍스트와 특수 태그, 장소 텍스트 리뷰간 유사도 검사
- 컨텐츠 기반 필터링 3: 사용자의 그동안의 리뷰와 장소의 유사도 검사
최종 모델:
1에서 최소 threshold를 만족하는 가게들에 한하여 2와 3에서 각각 나온 결과와 가중치를 곱한 값을 더해서 결정
텍스트 유사도 검사 모델로 BERT 사용의 문제: 추천시스템은 입력 텍스트와의 유사도 검출이 즉각적으로 이루어져야 하는 반면, BERT는 모델이 무거워 전체 리뷰와 비교하려면 최소 2~3분 이상의 시간이 필요함
따라서 상대적으로 경량 모델인 TF-IDF 사용하여 실시간 추천을 가능하도록 함
결과: 2~3분 >> 3~4초로 시간 단축
BERT보다 복잡한 표현이나 유사어를 감지하는 데에서 낮은 성능을 보였으나 최종적인 추천 결과에는 큰 영향을 미치지 않는 것으로 확인
예시1) 입력 텍스트: 공부하기 좋은 곳
예시2) 입력 텍스트: 마카롱 파는 곳
추후 작업
- TF-IDF 기반 유사도 검출 후 높은 순위를 가진 가게들에 대해서만 BERT 기반 유사도 검증 시도 예정
- 사용자 기반 추천에 대하여 코드 공부 후 간단한 코사인 유사도 검출 시도 예정