본문 바로가기

전체 글

(20)
4.1~4.3 4. 모델 훈련 (1) 선형 회귀- 닫힌 형태 방정식(closed form equation) 을 사용하여 훈련 세트에 대해 최적의(손실 함수를 최소화하는) 파라미터를 찾는 방법- 경사 하강법 (Gradient descent)를 통해 모델 파라미터를 점진적으로 바꾸면서 Cost를 최소화하는 파라미터로 수렴하도록 하는 방식 (2) 다항 회귀 - 비선형, 선형 회귀에 비해 오버피팅되기 쉬움- 오버피팅 감지, 규제 기법 소개 (3) 분류 - 로지스틱 회귀 / 소프트맥스 회귀  4.1 선형 회귀- 일반적으로 입력 특성의 가중치 합과 편향을 더해 예측값을 결정함- y^: 예측값- n: 특성의 수- x^i: i번째 특성값-  θ^j : j 번째 모델의 파라미터 * 선형 회귀의 벡터 표현- h^ θ(x) : 모델 파라..
2.5 ~3.7 2.5 데이터 준비 데이터 준비를 함수로 자동화 이유- 어떤 데이터셋에 대해서도 데이터 변환을 손쉽게 반복할 수 있음- 향후 프로젝트에 재사용 가능한 변환 라이브러리를 점진적으로 구축할 수 있음- 실제 시스템에서 알고리즘에 새 데이터를 주입하기 전에 이 함수를 사용해 변환할 수 있음- 여러 가지 데이터 변환을 쉽게 시도 및 어떤 조합이 가장 좋은지 확인하는데 편리 2.5.1 데이터 정제1. 해당 구역 제거2. 전체 특성 삭제3. 결측치를 어떤 값으로 대체함 (imputing) : 주로 0, 1, 평균 housing.dropna(subset=["total_bedrooms"], inplace=True)    # 옵션 1 housing.drop("total_bedrooms", axis=1)           ..
1-4~2-4 1-4) 머신러닝 시스템의 종류 - 훈련 지도 방식에 따른 분류 [지도학습]- 지도 학습(supervised learning)에는 알고리즘에 주입하는 훈련 데이터에 레이블(label)이라는 원하는 답이 포함- 분류, 회귀가 전형적인 지도 학습 작업 [비지도학습]- 훈련 데이터에 label이 없음. 모델 스스로 학습- 클러스터링, 시각화와 차원 축소, 특성추출(차원축소), 연관 규칙 분석, 이상치 탐지 [준지도학습]- 지도학습 + 비지도학습- 다수의 레이블 없는 샘플과 소수의 레이블 있는 샘플로 데이터셋 구성 [자가 지도 학습]- 레이블 없는 데이터셋에서 레이블 생성- ex) 이미지 랜덤 마스킹 후 복원 등 [강화 학습]- 에이전트가 액션에 따른 보상을 최대로 만드는 방법으로 훈련시키는 것 - 배치 학습과..
HCI-Korea 2025 Paper / Demo Demo 1 Demo 2
12/23 - 추천시스템 모델 생성 기존 진행 상황- 데이터 크롤링 완료- 카페/ 식당/ 술집으로 분류 완료- 리뷰 텍스트와 입력 텍스트 간 유사도 검출에 BERT 사용 시도 모델 생성 방안- 컨텐츠 기반 필터링 1: 사용자 선택 태그와 가게 키워드 리뷰로 1차 유사도 검사- 컨텐츠 기반 필터링 2: 사용자가 입력한 텍스트와 특수 태그, 장소 텍스트 리뷰간 유사도 검사- 컨텐츠 기반 필터링 3: 사용자의 그동안의 리뷰와 장소의 유사도 검사 최종 모델:1에서 최소 threshold를 만족하는 가게들에 한하여 2와 3에서 각각 나온 결과와 가중치를 곱한 값을 더해서 결정 텍스트 유사도 검사 모델로 BERT 사용의 문제: 추천시스템은 입력 텍스트와의 유사도 검출이 즉각적으로 이루어져야 하는 반면, BERT는 모델이 무거워 전체 리뷰와 비교하려면..
5주차 - 웹사이트 크롤링 및 데이터 전처리 프로젝트 정보 데이터 크롤링 목표 1수집해야 할 것: 가게별 태그+ 태그 수가게별 특성 파악용>> 완료 데이터 크롤링 목표 2가게별 인기순 상위 리뷰 20개사용자 ID / 예약유무, 대기시간, 방문목적, 누구와 함께 / 태그 전체1, 2번을 바탕으로 해당 가게의 성향 파악 기대>> 완료 데이터 크롤링 목표 3랜덤한 사용자 각 20명 선정 후 (총 80명) 해당 사용자들의 리뷰 20개 크롤링사용자 ID / 식당별 예약유무, 대기시간, 방문목적, 누구와 함께 / 태그 전체이를 기반으로 해당 사용자의 성향 파악 후 맞춤형 추천 가능할 것 기대>> 완료   전처리 작업 진행 상황 데이터 크롤링 목표1: 전처리 따로 필요 x 데이터크롤링 목표2- 대기시간은 연속형 변수로, 나머지는 각 태그의 존재 여부를 (Tru..
3주차 - 주제 결정 및 데이터셋 선정 1~2주차 진행상황:Python을 이용한 개인화 추천시스템 (인프런) 강좌 수강 후 코드 리뷰     > 영화 리뷰 데이터셋 사용     > 해당 데이터셋을 기반으로 한 다양한 개인별 추천 전략 학습   [주제 결정 : 최신 도서 추천 시스템]  [주제 결정 이유]- 추천시스템 모델을 구축하려면 필요한 특정 개인을 식별 가능한(고유 번호, ID 등) 기록을 모아둔 데이터가 인터넷 상에 많지 않음- 이전 도서 평가 데이터를 기반으로 최신 인기 있는 책을 타겟 삼아 추천을 하고자 함. [데이터셋 선정] 1) Book-Crossing: User review ratings (479. 94MB) 구성:사용자 정보( 거주지, 나이)  + 책 관련 정보( ISBN, 제목, 저자, 출판연도, 출판사 ) + 사용자가 준..
1주차 - 인프런 강의 수강(~섹션5) * 협업 필터링 추천 - 사용자 집단별 추천은 큰 개선 x- 어떤 아이템에 대해 비슷한 취향을 가진 사람들은 다른 아이템 또한 비슷한 취향을 가질 것이라 가정함  ex) user 1에게 추천을 해 주기 위해서는 각 사용자와의 유사성을 계산하고 해당 사용자가 좋아한 컨텐츠 추천 - user 4, user3 참고해 추천   * 유사도 지표 - CF에서 사용자간 유사도를 구하는 것이 핵심  1) 상관계수 1.    가장 이해하기 쉬운 유사도 2.    -1 ~ 1 사이 값   2) 코사인 유사도1.    협업 필터링에서 가장 널리 쓰이는 유사도 2.    각 아이템 => 하나의 차원, 사용자의 평가값 => 좌표값 3.    두 사용자의 평가값 유사 => theta는 작아지고, 코사인 값은 커짐. 4.    -..