ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 머신러닝 알고리즘, 모델, 그리고 가정
    Data miner 2019. 6. 11. 13:51
    728x90

     

    머신러닝 분야는 앞에서 살펴본 바와 같이, 인공지능 분야의 일부분으로서 학습 데이터를 통해서 알고리즘을 다룬다는 특징을 가지고 있다. 이 분야에서는 학습 데이터셋이 아니라 새로운 데이터(test data)를 다룰 때 이에 대한 실제 반응값(y값)을 잘 예측하는 모델을 찾는 것이 주된 목표이다. 

    머신러닝은 관찰하고자 하는 현상의 일부 데이터셋을 이용하여, 특정한 모델 혹은 알고리즘을 학습시킨다. 이는 입력 변수와 반응변수의 관계를 적절히 나타내는 모델 f(X)를 찾고자 하는 노력으로 아래와 같이 나타낼 수 있으며, 모델으로 설명할 수 없는 부분은 에러값에 해당한다. 

    먼저 모델을 정하는데 있어서(복잡하거나? 단순하거나?), 우리는 현 현상에 적절하게 맞는 모델을 선정해야 한다. 이에 대응하는 개념이 통계 혹은 수학에서의 가정에 해당한다. 모델을 뭐로 하지? Naive bayes classification? SVM? 선정하는 것이 데이터의 문제를 풀어나가는데 있어서 먼저 해결되어야할 부분이다. 

    모델 부분에 해당하는 f(x)는 다양한 모델 파라미터 값을 가질 수 있다. 즉, 일차 방정식일 경우 x값 앞에 붙을 수 있는 다양한 실수값의 조합을 뜻한다. 이 때, 실제 현상을 잘 반영할 수 있는 모델의 파라미터값들을 머신러닝의 분야에서는 가정(hypothesis)이라고 본다. 우리는 특정 모델(일차방정식, SVM, 등등)을 선정하여, 이 가정된 공간(hypothesis space)에서 실제 현상을 가장 잘 나타내는 파라미터 값을 찾아야 한다!. 

    2006년, 데이터 마이닝 분야 국제 컨퍼런스에서 머신러닝 알고리즘으로 효과적이고 강력한 툴로서

    C4.5(분류분제), CART(분류문제, 회귀트리), SVM, Adabookst, kNN등이 있었는데...!

    2019년에도 이런 고전적인 머신러닝 방법들이 많은 연구 문제에서 중요하게 다뤄졌고, 최신 모델을 다루는데 있어서 베이스 라인이 되는 모델(비교모델)이 되기도 하였다. 역시, 기초는 어디서나 중요하다!

    앞으로 포스팅하면서, 더 자세히 소개하고자 한다 :) 

     

     

     

     

     

     

     

Designed by Tistory.