클래스: 인공지능 소개

무료이용으로 수강해 보세요.

업계 전문가가 강의하는 클래스 23,200개를 수강하세요.

데이터 따라가기

데이터 따라가기

- 옛날 영화 '모두가 대통령의 사람들'에서 닉슨 스캔들의 최고 정보원이 주차장에서 만나 '돈을 따르라'고 말했죠. 기자는 돈을 따라가야만 진실을 찾을 수 있었죠. 기자와 마찬가지로 머신러닝 알고리즘은 진실에 도달하기 위해 데이터를 따라야 하지만 말처럼 쉽지 않습니다. 실제로 머신러닝의 가장 큰 과제 중 하나는 편향과 분산의 균형을 맞추는 것입니다. 편향은 예측된 값과 실제 결과 사이의 차이입니다. 주사위를 굴리면서 5가 3번 나올 것이라고 예측했지만 4가 3번 나왔다고 가정해 보겠습니다. 그러면 예측은 높은 편향을 갖게 될 것입니다. 매번 1씩 작게 나온 것이죠. 분산은 예측값이 여기저기 흩어져 있는 경우를 말합니다. 따라서 주사위를 굴릴 때 5가 3번 나올 것으로 예상했지만 실제로는 2, 4, 6이 나왔다면 다른 수치로 벗어난 것이죠. 그러면 데이터가 너무 분산될 것입니다. 이제 시스템이 어떻게 잘못되었는지에 대해 그렇게 중요하게 여기는 것이 이상하게 보일 수도 있지만 머신러닝 알고리즘을 사용하여 작업할 때 이는 두 가지 별도의 어려움이므로 시스템은 이를 다른 방식으로 수정해야 합니다. 다트 게임을 생각해 보세요. 다트판의 중앙은 기계의 최고 예측입니다. 이는 중앙에 있는 작은 빨간 불스아이가 올바른 예측이라는 것을 의미합니다. 기계는 세 개의 다트를 던질 수 있으며 각 다트는 지속적으로 틀릴 수 있죠. 그들은 모두 빨간 불스아이 바로 위의 오른쪽 상단 모서리를 맞힐 수 있어요. 이를 높은 편향과 낮은 분산이라고 합니다. 다트는 서로 밀접하게 그룹화되어 있지만 모두 오른쪽으로 너무 멀리 떨어져 있습니다. 데이터 세트의 편향이 높아요. 즉, 더 나은 예측을 하려면 기계가 다트 그룹을 왼쪽 아래로 당겨야 한다는 의미입니다. 이제 다른 어려움을 상상해보세요. 기계가 다트판에 다트를 던지면 다트가 여기저기로 흩어집니다. 즉, 데이터가 넓게 퍼져 있으므로 이 데이터의 분산이 크다는 의미입니다. 더 나은 예측을 위해 기계는 불스아이에 가장 가까운 다트를 조이려고 할…

목차