1.basis-of-machine-learning

머신러닝은 데이터로부터 학습하도록 컴퓨터를 프로그래밍하는 과학이다.

지도 / 비지도 / 준지도 / 강화 학습
- 지도 학습 : K-NN / 선형 회귀 / 로지스틱 회귀 / 서포트 벡터 머신 / 결정 트리 / 랜덤 포레스트 / 신경망
- 비지도 학습 : 군집 (k-평균, 계층군집(HCA), 기댓값 최대화) / 시각화와 차원 축소 (주성분 분석(PCA), 커널PCA, 지역적 선형 임베딩(LLE), t-SNE) / 연관 규칙 학습 (Apriori, Eclat)
온라인 학습과 배치 학습
사례 기반 학습과 모델 기반 학습 (데이터 분석 – 모델 선택 – 모델 훈련 – 예측)

나쁜 알고리즘
- 훈련 데이터 과대적합 – 규제(regularization) : 하이퍼파라미터
- 훈련 데이터 과소적합 – 파라미터 강력하게 수정, 특성 엔지니어링, 모델 제약 작게 수정
나쁜 데이터
- 데이터는 양이 많을수록 좋기는 하다. 하지만 대표성을 가져야 더 좋다.
  샘플이 작으면 샘플링 잡음 발생, 샘플이 커도 샘플링 편향 발생 가능
- 낮은 품질의 데이터 – 에러, 이상치, 잡음 : 정제해야 한다. (엉터리 -> 엉터리)
- 관련 없는 특성 – feature engineering (feature selection, feature extraction)

In [ ]:

Ssong's DataLab

[Hands On ML] 1. 한눈에 보는 머신러닝