[Recommender System] 3. 컨텐츠 기반 모델 (Word2Vec(CBOW, Skip-gram)
T아카데미에서 오픈된 토크ON세미나 강연 동영상을 보고 정리해보았다. Word2Vec TF-IDF와 같은 통계기반의 방법의 세 가지 문제점을 해결하기 위해 제시된 모델 통계기반의 방법의 단점 대규모 말뭉치를 다룰 때 메모리상의 문제가 발생 : 높은 차원을 갖고, 매우 sparse한 형태의 데이터 한번에 학습 데이터 전체를 진행함 : 큰 작업을 처리하기 어렵고, GPU와 같은 병렬처리를 기대하기 힘들다. 학습을 통해서 개선하기가 어렵다. 추론기반의 방법 (Word2Vec) 추론 : 주변 단어(맥락)이 주어졌을 때 "?"에 무슨 단어(중심단어)가 들어가는지를 추측하는 작업 CBOW 모델 : 앞 뒤 단어로 가운데 단어를 유추할 수 있을지 ( you ? goodbye and I say hello. ) skip-..