기존 진행 상황
- 데이터 크롤링 완료
- 카페/ 식당/ 술집으로 분류 완료
- 리뷰 텍스트와 입력 텍스트 간 유사도 검출에 BERT 사용 시도
모델 생성 방안
- 컨텐츠 기반 필터링 1: 사용자 선택 태그와 가게 키워드 리뷰로 1차 유사도 검사
- 컨텐츠 기반 필터링 2: 사용자가 입력한 텍스트와 특수 태그, 장소 텍스트 리뷰간 유사도 검사
- 컨텐츠 기반 필터링 3: 사용자의 그동안의 리뷰와 장소의 유사도 검사
최종 모델:
1에서 최소 threshold를 만족하는 가게들에 한하여 2와 3에서 각각 나온 결과와 가중치를 곱한 값을 더해서 결정
텍스트 유사도 검사 모델로 BERT 사용의 문제: 추천시스템은 입력 텍스트와의 유사도 검출이 즉각적으로 이루어져야 하는 반면, BERT는 모델이 무거워 전체 리뷰와 비교하려면 최소 2~3분 이상의 시간이 필요함
따라서 상대적으로 경량 모델인 TF-IDF 사용하여 실시간 추천을 가능하도록 함
결과: 2~3분 >> 3~4초로 시간 단축
BERT보다 복잡한 표현이나 유사어를 감지하는 데에서 낮은 성능을 보였으나 최종적인 추천 결과에는 큰 영향을 미치지 않는 것으로 확인
예시1) 입력 텍스트: 공부하기 좋은 곳
예시2) 입력 텍스트: 마카롱 파는 곳
추후 작업
- TF-IDF 기반 유사도 검출 후 높은 순위를 가진 가게들에 대해서만 BERT 기반 유사도 검증 시도 예정
- 사용자 기반 추천에 대하여 코드 공부 후 간단한 코사인 유사도 검출 시도 예정
'추천시스템 프로젝트(DACOS)' 카테고리의 다른 글
5주차 - 웹사이트 크롤링 및 데이터 전처리 (1) | 2024.11.04 |
---|---|
3주차 - 주제 결정 및 데이터셋 선정 (2) | 2024.09.28 |
1주차 - 인프런 강의 수강(~섹션5) (4) | 2024.09.16 |
1주차 - 인프런 강의 수강(~섹션3) (1) | 2024.09.16 |