[Recommender System] 5. 평가함수 (Accuracy, MAP, NDCG) T아카데미에서 오픈된 토크ON세미나 강연 동영상을 보고 정리해보았다. 평가함수 평가함수는 추천시스템의 모델을 생성하고 해당 모델이 얼마나 잘 추천하고 있는지에 대해서 평가를 도와주는 함수이다. 도메인이나 목적에 따라서 다른 평가 함수를 도입해서 얼마나 잘 추천이 되는지 평가하는게 중요하다. 예를 들어, 영화평점의 경우에서는 두가지 형태로 평가를 할 수 있다. - 내가 추천해준 영화를 고객이 봤나? - 내가 추천해준 영화를 고객이 높은 점수로 평점을 줬나? 분명 위 2가지는 다르다. 1번의 경우 단순히 보기만하면 추천에 성공했다고 하지만, 실제 고객의 만족도는 낮을 수도 있다. 반대로 2의 경우는 고객의 만족도까지 고려해서 평가를 한 것이다. 이러한 성질은 추천을 진행할때에도 차이가 생긴다. 유투브를 클릭.. Data Analysis/Recommender System 3년 전
[Recommender System] 4. 협업 필터링 (KNN, SGD, ALS) T아카데미에서 오픈된 토크ON세미나 강연 동영상을 보고 정리해보았다. 협업필터링 사용자의 구매 패턴이나 평점을 가지고 다른 사람들의 구매 패턴, 평점을 통해서 추천을 하는 방법이다. 추가적인 사용자의 개인정보나 아이템의 정보가 없이도 추천할 수 있는게 큰 장점이다. Netflix Prize Competition(2006-2009) 우승 알고리즘 최근접 이웃기반 (Neighborhood based method - KNN) / 잠재 요인기반 (Lantent Factor Collaborative Filtering) [장점] 도메인 지식이 필요하지 않다. 사용자의 새로운 흥미를 발견하기 좋다. 시작단계의 모델로 선택하기 좋다. (추가적인 문맥정보들의 필요가 없다) baseline으로 적용하고, 후에 컨텐츠 기반.. Data Analysis/Recommender System 3년 전
[Recommender System] 3. 컨텐츠 기반 모델 (Word2Vec(CBOW, Skip-gram) T아카데미에서 오픈된 토크ON세미나 강연 동영상을 보고 정리해보았다. Word2Vec TF-IDF와 같은 통계기반의 방법의 세 가지 문제점을 해결하기 위해 제시된 모델 통계기반의 방법의 단점 대규모 말뭉치를 다룰 때 메모리상의 문제가 발생 : 높은 차원을 갖고, 매우 sparse한 형태의 데이터 한번에 학습 데이터 전체를 진행함 : 큰 작업을 처리하기 어렵고, GPU와 같은 병렬처리를 기대하기 힘들다. 학습을 통해서 개선하기가 어렵다. 추론기반의 방법 (Word2Vec) 추론 : 주변 단어(맥락)이 주어졌을 때 "?"에 무슨 단어(중심단어)가 들어가는지를 추측하는 작업 CBOW 모델 : 앞 뒤 단어로 가운데 단어를 유추할 수 있을지 ( you ? goodbye and I say hello. ) skip-.. Data Analysis/Recommender System 3년 전
[Recommender System] 2. 컨텐츠 기반 모델 (유사도 함수, TF-IDF) T아카데미에서 오픈된 토크ON세미나 강연 동영상을 보고 정리해보았다. 컨텐츠 기반 모델 사용자가 이전에 구매한 상품중에서 좋아하는 상품들과 유사한 상품들을 추천하는 방법 Items를 벡터 형태로 표현, 도메인에 따라 다른 방법이 적용된다. 벡터들간의 유사도를 계산하여 자신과 유사한 벡터를 추출한다. 유사도 함수 유클리디안 유사도 = 1 / (유클리디안 거리 + 0.000001) 유클리디안 거리 가장 가까운 거리가 묶인다. 장점 : 계산하기 쉽다. 단점 : p와 q의 분포나 스케일이 다른 경우 상관성을 놓친다. 코사인 유사도 (가장 많이 사용) 벡터의 방향도 고려한다. (쎄타 각도) 장점 : 벡터의 크기가 중요하지 않은 경우에 거리를 측정하기 위한 메트릭으로 사용 단점 : 벡터의 크기가 중요한 경우에 대해.. Data Analysis/Recommender System 3년 전
[Recommender System] 1.추천시스템의 이해 (연관분석, Apriori, FP-Growth) T아카데미에서 오픈된 토크ON세미나 강연 동영상을 보고 정리해보았다. 추천시스템이란? - 사용자(user)에게 상품(item)을 제안하는 기술이다. - 어떤 상품을 구매할 지, 어떤 음악을 들을지, 어떤 동영상을 볼지와 같은 의사결정과 연관이 있다. - 어떤 사용자에게 어떤 상품을 어떻게 추천할지 (20대에게, 오징어게임을...) 추천시스템의 활용 - 당근 마켓 : 관련 상품 추천 - 카카오 브런치 : 유사한 글 추천 - 유투브 알고리즘 ( 방대한 양 - 딥러닝 활용 ) 파레토와 롱테일의 법칙 - 파레토 법칙 : 상위 20%가 80%의 가치를 창출한다. - 롱테일 법칙 : 하위 80%가 상위 20%의 가치보다 크다. 인터넷의 발전에 따라 롱테일의 법칙이 온라인 상에서 중요해졌다. 추천시스템의 역사 200.. Data Analysis/Recommender System 3년 전