비지도 학습이란 무엇인가요?

인공지능의 비지도 학습은 사람의 감독 없이 데이터를 통해 학습하는 머신러닝의 한 유형입니다. 지도 학습과 달리 비지도 머신러닝 모델은 라벨이 지정되지 않은 데이터를 통해 명시적인 지침이나 안내 없이 패턴과 유용한 정보를 발견할 수 있습니다. 

인식 여부에 관계없이 인공지능머신러닝은 일상의 모든 측면에 영향을 미치며 데이터를 효율성 향상, 비용 절감, 정보에 입각한 의사 결정에 도움이 되는 유용한 정보로 전환하는 데 도움을 주고 있습니다. 오늘날 비즈니스는 머신러닝 알고리즘을 사용하여 맞춤 추천, 실시간 번역을 지원하거나 텍스트, 이미지, 기타 유형의 콘텐츠를 자동으로 생성하고 있습니다.

여기서는 비지도 머신러닝의 기본사항, 작동 방식, 일반적인 실제 적용 사례를 살펴봅니다.

신규 고객에게는 최대 $300의 무료 크레딧이 제공되어 Vertex AI 및 기타 Google Cloud 제품을 사용해 볼 수 있습니다. 

비지도 학습은 어떻게 작동하나요?

이름에서 알 수 있듯이 비지도 학습은 자가 학습 알고리즘을 사용하여 라벨이나 사전 학습 없이 학습합니다. 대신 모델에는 라벨이 지정되지 않은 원시 데이터가 제공되며, 각 데이터로 작업하는 방법에 대한 명시적인 지침 없이 유사점, 차이점, 패턴을 기반으로 자체 규칙을 추론하고 정보를 구조화해야 합니다.

비지도 학습 알고리즘은 대규모 데이터 세트를 클러스터로 구성하는 등 보다 복잡한 처리 작업에 더 적합합니다. 이는 데이터에서 이전에 감지되지 않은 패턴을 식별하는 데 유용하며 데이터를 분류하는 데 유용한 특성을 식별하는 데 도움이 될 수 있습니다. 

날씨에 대한 대규모 데이터 세트가 있다고 가정해 보겠습니다. 비지도 학습 알고리즘은 데이터를 살펴보고 데이터 포인트에서 패턴을 식별합니다. 예를 들어 기온이나 유사한 날씨 패턴에 따라 데이터를 그룹화할 수 있습니다. 

알고리즘 자체는 사용자가 이전에 제공한 정보를 기반으로 이러한 패턴을 이해하지 못하지만 데이터 그룹을 살펴보고 데이터 세트에 대한 이해에 따라 데이터 그룹을 분류해 볼 수 있습니다. 예를 들어 서로 다른 기온 그룹이 사계절 모두를 나타내거나 날씨 패턴이 비, 진눈깨비, 눈과 같은 서로 다른 유형의 날씨로 구분되어 있음을 인식할 수 있습니다. 

비지도 학습

비지도 머신러닝 방법

일반적으로 비지도 학습 작업에는 클러스터링, 연관 규칙, 차원 축소라는 세 가지 유형이 있습니다. 

아래에서는 각 유형의 비지도 학습 기법에 대해 자세히 알아보겠습니다.

클러스터링

클러스터링은 라벨이 지정되지 않은 원시 데이터를 탐색하고 유사점이나 차이점을 기반으로 그룹(또는 클러스터)으로 분류는 기법입니다. 고객 세분화, 사기 감지, 이미지 분석을 비롯한 다양한 애플리케이션에 사용됩니다. 클러스터링 알고리즘은 분류되지 않은 데이터에서 유사한 구조나 패턴을 찾아 데이터를 자연 그룹으로 분할합니다. 

클러스터링은 가장 널리 사용되는 비지도 머신러닝 접근 방식 중 하나입니다. 클러스터링에 사용되는 비지도 학습 알고리즘에는 배타적, 중복, 계층적, 확률적 클러스터링 등 여러 유형이 있습니다.  

  • 배타적 클러스터링: 단일 데이터 포인트가 하나의 클러스터에만 존재할 수 있는 방식으로 데이터를 그룹화합니다. 이를 '하드 클러스터링'이라고도 합니다. 배타적 클러스터링의 일반적인 예로는 데이터 포인트를 클러스터의 사용자 정의 수 K로 나누는 K-평균 클러스터링 알고리즘이 있습니다. 
  • 중복 클러스터링: 단일 데이터 포인트가 멤버십 수준이 다른 두 개 이상의 클러스터에 존재할 수 있는 방식으로 데이터를 그룹화합니다. 이를 '소프트' 클러스터링이라고도 합니다. 
  • 계층적 군집화: 데이터는 유사성을 기반으로 별개의 클러스터로 분할되며, 그런 다음 계층적 관계에 따라 반복적으로 병합되고 정리됩니다. 계층적 군집화에는 크게 2가지 유형, 즉 병합형 군집화와 분리형 군집화가 있습니다. 이 방법을 계층적 클러스터 분석(HAC)이라고도 합니다. 
  • 확률적 클러스터링: 각 데이터 포인트가 각 클러스터에 속할 확률에 따라 데이터를 클러스터로 그룹화합니다. 이 접근 방식은 클러스터의 다른 항목과의 유사성을 기반으로 데이터 포인트를 그룹화하는 다른 방법과 다릅니다. 

연결

연관 규칙 마이닝은 대규모 데이터 세트의 데이터 포인트 간의 흥미로운 관계를 밝히는 규칙 기반 접근 방식입니다. 비지도 학습 알고리즘은 빈번한 if-then 연관(규칙이라고도 함)을 검색하여 데이터 내의 상관관계 및 동시 발생과 데이터 객체 간의 다양한 연결을 발견합니다. 

소매 바구니 또는 트랜잭션 데이터 세트를 분석하여 특정 상품을 함께 구매하는 빈도를 나타내는 데 가장 일반적으로 사용됩니다. 이러한 알고리즘은 고객 구매 패턴과 제품 간의 숨겨진 이전 관계를 밝혀 추천 엔진이나 다른 크로스셀 기회에 정보를 제공합니다. 자주 이용하는 온라인 소매점의 '자주 함께 구매하는 항목'과 '이 상품을 구매한 다른 사용자도 함께 구매한 항목' 섹션에 있는 이러한 규칙을 가장 잘 알고 계실 것입니다. 

연관 규칙은 임상 진단을 위해 의료 데이터 세트를 구성하는 데도 자주 사용됩니다. 비지도 머신러닝과 연관 규칙을 사용하면 의사가 과거 환자 사례의 증상 간 관계를 비교하여 특정 진단의 확을 파악할 수 있습니다. 

일반적으로 Apriori 알고리즘은 관련 항목 모음이나 항목 집합을 식별하는 연관 규칙 학습에 가장 광범위하게 사용됩니다. 그러나 Eclat 및 FP 성장 알고리즘과 같은 다른 유형이 사용됩니다.

차원 축소

차원 축소는 데이터 세트에서 특성 또는 차원 수를 줄이는 비지도 학습 기법입니다. 일반적으로 머신러닝에는 데이터가 많을수록 좋지만 데이터를 시각화하는 것이 더 어려워질 수도 있습니다.

차원 축소는 데이터 세트에서 중요한 특성을 추출하여 관련이 없거나 무작위로 존재하는 특성의 수를 줄입니다. 이 방법은 주 성분 분석(PCA)과 특이값 분해(SVD) 알고리즘을 사용하여 원본 데이터에 있는 속성의 무결성을 손상시키지 않고 데이터 입력 수를 줄입니다.

실제 비지도 학습 예시

비지도 학습의 작동 방식에 대한 기본 사항을 이해했으므로 이제 비즈니스에서 대량의 데이터를 빠르게 탐색하는 데 도움이 되는 가장 일반적인 사용 사례를 살펴보겠습니다. 

  

다음은 실제 비지도 학습의 몇 가지 예입니다.

  • 이상 감지: 비지도 클러스터링은 대규모 데이터 세트를 처리하고 데이터 세트에서 이례적인 데이터 포인트를 발견할 수 있습니다. 
  • 추천 엔진: 비지도 머신러닝 학습을 통해 연관 규칙을 사용하면 트랜잭션 데이터를 탐색하여 온라인 소매업체에 맞춤형 추천을 제공하는 데 사용할 수 있는 패턴이나 트렌드를 발견할 수 있습니다. 
  • 고객 세분화: 비지도 학습은 고객의 공통된 특성이나 구매 행동을 클러스터링하여 구매자 캐릭터 프로필을 생성하는 데도 흔히 사용됩니다. 이러한 프로필은 마케팅 및 기타 비즈니스 전략을 안내하는 데 사용할 수 있습니다. 
  • 사기 감지: 비지도 학습은 데이터 세트에서 비정상적인 데이터 포인트를 드러내는 이상 감지에 유용합니다. 이러한 유용한 정보는 데이터의 정상적인 패턴을 벗어나는 이벤트나 행동을 찾아 허위 거래나 봇 활동과 같은 비정상적인 행동을 밝혀내는 데 도움이 될 수 있습니다. 
  • 자연어 처리(NLP): 비지도 학습은 뉴스 섹션의 기사 분류, 텍스트 번역 및 분류, 대화 인터페이스의 음성 인식과 같은 다양한 NLP 애플리케이션에 일반적으로 사용됩니다. 
  • 유전 연구: 유전 클러스터링은 또 다른 일반적인 비지도 학습의 예입니다. 계층적 군집화 알고리즘은 DNA 패턴을 분석하고 진화 관계를 밝혀내기 위해 자주 사용됩니다. 

비지도 학습은 라벨이 지정되지 않은 대량의 데이터를 탐색해야 하는 작업에 매우 적합합니다. 이 접근 방법을 통해 비즈니스에서 라벨이 없을 때 데이터에서 유용한 정보를 더 쉽게 얻을 수 있으므로 사람이 가르치지 않아도 데이터 세트의 기본 구조를 이해하고 데이터 세트 간의 패턴과 관계를 식별할 수 있습니다.

지도 학습과 비지도 학습 비교

지도 학습과 비지도 학습의 주요 차이점은 사용하는 입력 데이터 유형입니다. 비지도 머신러닝 알고리즘과 달리 지도 학습은 라벨이 지정된 학습 데이터를 사용하여 데이터 세트 내의 패턴 인식이 정확한지 판단합니다. 

지도 학습 모델의 목표도 미리 정해져 있습니다. 즉, 모델의 출력 유형은 알고리즘이 적용되기 전에 이미 알려져 있습니다. 즉, 입력은 학습 데이터를 기반으로 출력에 매핑됩니다.

Google Cloud로 비즈니스 문제 해결

신규 고객에게는 Google Cloud에서 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
Google Cloud 영업 전문가에게 고유한 문제에 대해 자세히 논의해 보세요.

다음 단계 수행

$300의 무료 크레딧과 20여 개의 항상 무료 제품으로 Google Cloud에서 빌드하세요.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
콘솔
Google Cloud