[Recommender System] 3. 컨텐츠 기반 모델 (Word2Vec(CBOW, Skip-gram) T아카데미에서 오픈된 토크ON세미나 강연 동영상을 보고 정리해보았다. Word2Vec TF-IDF와 같은 통계기반의 방법의 세 가지 문제점을 해결하기 위해 제시된 모델 통계기반의 방법의 단점 대규모 말뭉치를 다룰 때 메모리상의 문제가 발생 : 높은 차원을 갖고, 매우 sparse한 형태의 데이터 한번에 학습 데이터 전체를 진행함 : 큰 작업을 처리하기 어렵고, GPU와 같은 병렬처리를 기대하기 힘들다. 학습을 통해서 개선하기가 어렵다. 추론기반의 방법 (Word2Vec) 추론 : 주변 단어(맥락)이 주어졌을 때 "?"에 무슨 단어(중심단어)가 들어가는지를 추측하는 작업 CBOW 모델 : 앞 뒤 단어로 가운데 단어를 유추할 수 있을지 ( you ? goodbye and I say hello. ) skip-.. Data Analysis/Recommender System 3년 전
[Recommender System] 2. 컨텐츠 기반 모델 (유사도 함수, TF-IDF) T아카데미에서 오픈된 토크ON세미나 강연 동영상을 보고 정리해보았다. 컨텐츠 기반 모델 사용자가 이전에 구매한 상품중에서 좋아하는 상품들과 유사한 상품들을 추천하는 방법 Items를 벡터 형태로 표현, 도메인에 따라 다른 방법이 적용된다. 벡터들간의 유사도를 계산하여 자신과 유사한 벡터를 추출한다. 유사도 함수 유클리디안 유사도 = 1 / (유클리디안 거리 + 0.000001) 유클리디안 거리 가장 가까운 거리가 묶인다. 장점 : 계산하기 쉽다. 단점 : p와 q의 분포나 스케일이 다른 경우 상관성을 놓친다. 코사인 유사도 (가장 많이 사용) 벡터의 방향도 고려한다. (쎄타 각도) 장점 : 벡터의 크기가 중요하지 않은 경우에 거리를 측정하기 위한 메트릭으로 사용 단점 : 벡터의 크기가 중요한 경우에 대해.. Data Analysis/Recommender System 3년 전
[Recommender System] 1.추천시스템의 이해 (연관분석, Apriori, FP-Growth) T아카데미에서 오픈된 토크ON세미나 강연 동영상을 보고 정리해보았다. 추천시스템이란? - 사용자(user)에게 상품(item)을 제안하는 기술이다. - 어떤 상품을 구매할 지, 어떤 음악을 들을지, 어떤 동영상을 볼지와 같은 의사결정과 연관이 있다. - 어떤 사용자에게 어떤 상품을 어떻게 추천할지 (20대에게, 오징어게임을...) 추천시스템의 활용 - 당근 마켓 : 관련 상품 추천 - 카카오 브런치 : 유사한 글 추천 - 유투브 알고리즘 ( 방대한 양 - 딥러닝 활용 ) 파레토와 롱테일의 법칙 - 파레토 법칙 : 상위 20%가 80%의 가치를 창출한다. - 롱테일 법칙 : 하위 80%가 상위 20%의 가치보다 크다. 인터넷의 발전에 따라 롱테일의 법칙이 온라인 상에서 중요해졌다. 추천시스템의 역사 200.. Data Analysis/Recommender System 3년 전