본문 바로가기

전체 글

(15)
5주차 - 웹사이트 크롤링 및 데이터 전처리 프로젝트 정보 데이터 크롤링 목표 1수집해야 할 것: 가게별 태그+ 태그 수가게별 특성 파악용>> 완료 데이터 크롤링 목표 2가게별 인기순 상위 리뷰 20개사용자 ID / 예약유무, 대기시간, 방문목적, 누구와 함께 / 태그 전체1, 2번을 바탕으로 해당 가게의 성향 파악 기대>> 완료 데이터 크롤링 목표 3랜덤한 사용자 각 20명 선정 후 (총 80명) 해당 사용자들의 리뷰 20개 크롤링사용자 ID / 식당별 예약유무, 대기시간, 방문목적, 누구와 함께 / 태그 전체이를 기반으로 해당 사용자의 성향 파악 후 맞춤형 추천 가능할 것 기대>> 완료   전처리 작업 진행 상황 데이터 크롤링 목표1: 전처리 따로 필요 x 데이터크롤링 목표2- 대기시간은 연속형 변수로, 나머지는 각 태그의 존재 여부를 (Tru..
3주차 - 주제 결정 및 데이터셋 선정 1~2주차 진행상황:Python을 이용한 개인화 추천시스템 (인프런) 강좌 수강 후 코드 리뷰     > 영화 리뷰 데이터셋 사용     > 해당 데이터셋을 기반으로 한 다양한 개인별 추천 전략 학습   [주제 결정 : 최신 도서 추천 시스템]  [주제 결정 이유]- 추천시스템 모델을 구축하려면 필요한 특정 개인을 식별 가능한(고유 번호, ID 등) 기록을 모아둔 데이터가 인터넷 상에 많지 않음- 이전 도서 평가 데이터를 기반으로 최신 인기 있는 책을 타겟 삼아 추천을 하고자 함. [데이터셋 선정] 1) Book-Crossing: User review ratings (479. 94MB) 구성:사용자 정보( 거주지, 나이)  + 책 관련 정보( ISBN, 제목, 저자, 출판연도, 출판사 ) + 사용자가 준..
1주차 - 인프런 강의 수강(~섹션5) * 협업 필터링 추천 - 사용자 집단별 추천은 큰 개선 x- 어떤 아이템에 대해 비슷한 취향을 가진 사람들은 다른 아이템 또한 비슷한 취향을 가질 것이라 가정함  ex) user 1에게 추천을 해 주기 위해서는 각 사용자와의 유사성을 계산하고 해당 사용자가 좋아한 컨텐츠 추천 - user 4, user3 참고해 추천   * 유사도 지표 - CF에서 사용자간 유사도를 구하는 것이 핵심  1) 상관계수 1.    가장 이해하기 쉬운 유사도 2.    -1 ~ 1 사이 값   2) 코사인 유사도1.    협업 필터링에서 가장 널리 쓰이는 유사도 2.    각 아이템 => 하나의 차원, 사용자의 평가값 => 좌표값 3.    두 사용자의 평가값 유사 => theta는 작아지고, 코사인 값은 커짐. 4.    -..
1주차 - 인프런 강의 수강(~섹션3) 1. 추천 시스템(Recommender System): 사용자의 과거 행동 데이터를 바탕으로 사용자에게 필요한 정보나 제품을 제시하는 시스템  추천 시스템의 여러 기술 • 협업 필터링(Collaborative Filtering) • 내용 기반 필터링(Content-Based Filtering) • 지식 기반 필터링(Knowledge-Based Filtering) • 딥러닝(Deep Learning) • 하이브리드 필터링(협업필터링 & 딥러닝)- 협업 필터링(Collaborative Filtering : CF) 구매 및 소비한 제품에 대한 소비자의 평가 패턴이 비슷한 집단 속에서 서로 접하지 않은 제품을 추천하는 기술- 내용 기반 필터링(Content-Based Filtering : CB) 제품의 내용을 ..
12. 생성 모델을 위한 딥러닝 [목차]12-1) 텍스트 생성12-2) 딥드림12-3) 뉴럴 스타일 트랜스포머12-4) 변이형 오토인코더를 이용한 이미지 생성12-5) 생성적 적대 신경망      12-1) 텍스트 생성 순환 신경망으로 시퀀스 데이터를 생성하는 것 역사2000 후반~2010: 펜 위치를 기록한 시계열 데이터를 사용하여 순환 네트워크와 완전 연결 네트워크를 혼합한 네트워크로 사람이 쓴 것 같은 손글씨 생성2014: LSTM ~2016년에 주류가 됨2017~2018: 트랜스포머 아키텍쳐 사용 언어 모델- 토큰(단어 또는 글자)들이 주어졌을 때 다음 토큰을 예측하는 작업을 수행하는 모델- 언어의 통계적 구조인 잠재 공간을 학습함- 임의 길이의 시퀀스 생성  샘플링 전략- 탐욕적 샘플링: 항상 가장 높은 확률을 가진 글자를 선..
11. 텍스트를 위한 딥러닝 [목차] 11-1) 자연어 처리 소개11-2) 텍스트 데이터 준비11-3) 단어 그룹을 표현하는 두 가지 방법: 집합과 시퀀스11-4) 트랜스포머 아키텍쳐11-5) 텍스트 분류를 넘어: 시퀀스-투-시퀀스 학습     11-1) 자연어 처리 소개 어셈블리어: 기계를 위해 고안된 언어 자연어: 사람의 언어> 복잡하고, 모호하고, 불규칙함 불규칙적이기 때문에 언어 규칙 집합을 찾을 수 없음 > 데이터를 사용하여 이런 규칙을 찾는 과정을 자동화함 자연어 처리(NLP) : 입력을 언어로 받아 어떤 유용한 것을 반환하는 것 자연어 처리 예시- 글의 주제 찾기(텍스트 분류)- 텍스트에 부적절한 내용이 포함되어 있는지(콘텐츠 필터링)- 텍스트가 긍정적/부정적인지 (감성 분석)- 문장을 완성하기 위한 다음 단어 찾기(언..
10. 시계열을 위한 딥러닝 [목차]10-1) 다양한 종류의 시계열 딥러닝10-2) 온도 예측 문제10-3) 순환 신경망 이해하기10-4) 순환 신경망의 고급 사용법      10-1) 다양한 종류의 시계열 딥러닝 시계열 데이터: 일정한 간격으로 측정하여 얻은 데이터ex) 자연 현상(지진 활동 등), 인간의 활동 패턴(웹 사이트 방문자, 카드 거래 변화 등) >> 시스템 역학에 대한 이해 필요 작업 종류1) 예측: 현 시점의 데이터 다음에 일어날 변화를 예측>> 가장 일반적인 시계열 관련 작업 2) 분류: 하나 이상의 범주형 레이블을 시계열에 부여 (봇/인간 구분 등) 3) 이벤트 감지: 연속된 데이터 스트림에서 예상되는 특정 이벤트를 식별 (인공지능의 특정 단어 감지 등) 4) 이상치 탐지: 연속된 데이터 스트림에서 발생하는 비정..
9. 컴퓨터 비전을 위한 고급 딥러닝 [목차]9-1 ) 세가지 주요 컴퓨터 비전 작업9-2 ) 이미지 분할 예제9-3 ) 최신 컨브넷 아키텍쳐9-4 ) 컨브넷이 학습한 것 해석하기     9-1 ) 세가지 주요 컴퓨터 비전 작업 1) 이미지 분류: 이미지에 하나 이상의 레이블을 할당하는 작업 (단일 레이블 분류 / 다중 레이블 분류)ex) 다중 레이블 분류: 구글 포토 앱 키워드 검색  2) 이미지 분할: 이미지를 서로 다른 영역으로 나누거나 분할하는 작업, 각 영역은 일반적으로 하나의 범주를 나타냄ex) 구글 미트 속 지정 배경을 출력하는 기능 (인물과 배경 분리)  3) 객체 탐지: 이미지에 있는 관심 객체 주변으로 바운딩 박스를 그리는 작업 (각 사각형은 하나의 클래스와 연결)ex) 자율주행 자동차의 보행자/ 자동차/ 표지판 등을 감지..