5.1.2. 분류 (Classification)
supervised ML의 문제의 타입 (problem type)에 따라 크게 두가지로 분류될 수 있습니다.
- Regression(회귀 분석): 주어진 데이터가 어떤 함수로부터 생성됐는가를 알아보는 ‘함수 관계’를 추측하는 것입니다. 예측하는 결과값이 continuous value(연속값)
- Classification(분류): 분류는 말 그대로 입력이 어떤 카테고리에 해당하는지 나누는 것입니다. 즉 예 아니오 와 같은 예측하는 결과값이 discrete value(이산값)
Classification은 주어진 데이터를 정해진 카테고리에 따라 분류하는 문제를 말합니다. 최근에 많이 사용되는 이미지 분류도 Classification 중에 하나입니다.
예를 들어, 이메일이 스팸메일인지 아닌지를 예측하려고 하면 이메일은 스팸메일/정상적인 메일로 라벨링 될 수 있을 것입니다. 비슷한 예시로 암을 예측하려고 가정했을 때 이 종양이 악성종양인지/아닌지로 구분할 수 있습니다. 이처럼 맞다/아니다로 구분되는 문제를 Binary Classification이라고 부릅니다.
분류 문제가 모두 맞다 / 아니다로 구분되지는 않습니다. 예를 들어, 공부시간에 따른 전공 Pass/Fail을 예측하려고 하면 이는 Binary Classification 으로 볼 수 있습니다. 반면에, 수능 공부시간에 따른 전공 학점을 A / B / C / D / F 으로 예측하는 경우도 있습니다. 이러한 분류를 Multi-label Classification이라고 합니다.
Regression은 연속된 값을 예측하는 문제를 말합니다. 주로 어떤 패턴이나 트렌드, 경향을 예측할 때 사용됩니다. Coursera에서는 Regression을 설명할 때 항상 집의 크기에 따른 매매가격을 예로 듭니다. 아까와 유사한 예를 들자면, 공부시간에 따른 전공 시험 점수를 예측하는 문제를 예로 들 수 있습니다.
Last updated