티스토리 뷰

AI

AI 학습 방법 정리 – 지도학습, 비지도학습, 강화학습

시뮬레이션 프로그래머 2025. 8. 20. 01:23

참고

  • 지도·비지도·강화학습은 학습 방법(패러다임)의 구분
  • 머신러닝·딥러닝은 알고리즘/모델의 구분

즉, 모든 학습 방법은 머신러닝과 딥러닝 방식 모두로 구현될 수 있습니다.


1. 지도학습 (Supervised Learning)

지도학습 방식

  • 정의: 입력과 정답(label)이 있는 데이터를 학습
  • 아이디어: 정답이 있어 입력 → 출력 관계를 배움
  • 문제 유형
    - 회귀(Regression): 연속값 예측
      → 예: 집값 예측, 온도 예측
    - 분류(Classification): 범주 예측
      예: 스팸 메일 판별, 고양이/강아지 이미지 분류
  • 대표 알고리즘: 선형/로지스틱 회귀, 결정트리/랜덤포레스트, SVM, KNN, 신경망

2. 비지도학습 (Unsupervised Learning)

비지도학습 방식

  • 정의: 정답(label) 없이 데이터의 구조나 패턴을 학습
  • 아이디어: 데이터 자체에서 규칙을 발견
  • 문제 유형
    - 군집화(Clustering): 비슷한 데이터끼리 그룹화
      예: 동물 분류, 고객 세분화, 문서 주제 분류
    - 차원 축소(Dimensionality Reduction): 고차원 데이터를 간단히 표현
      예: 데이터 시각화, 노이즈 제거, PCA
    - 연관 규칙 학습: 항목 간의 관계 찾기
      예: 장바구니 분석(맥주 사면 과자도 산다)
  • 대표 알고리즘: K-means, PCA, DBSCAN, t-SNE, Autoencoder

3. 강화학습 (Reinforcement Learning)

강화학습 방식 - 출처: https://develiro.tistory.com/18

  • 정의: 정답 대신 보상(Reward)으로 학습
  • 아이디어: 에이전트가 환경과 상호작용하며 시행착오를 통해 좋은 행동을 학습
  • 주요 구성 요소
    - 에이전트(Agent): 학습 주체 (AI)
    - 환경(Environment): 문제 상황 (게임, 로봇, 시뮬레이션)
    - 상태 (State): 환경의 현재 상황을 나타내는 정보 (로봇 위치, 바둑판 배치)
    - 행동(Action): 에이전트가 취하는 선택
    - 보상(Reward): 좋은 행동/나쁜 행동에 대한 신호
  • 예시: 알파고(바둑), 로봇 자율 주행, 게임 AI, 광고 추천
  • 대표 알고리즘: Q-learning, Policy Gradient, DQN, PPO

정리

구분 지도학습 비지도학습 강화학습
데이터 입력 + 정답(label) 있음 정답(label) 없음 정답 대신 보상(Reward)
목표 입력 → 출력 관계 학습 데이터 구조/패턴 발견 최적의 행동 전략 학습
예시 스팸 분류, 집값 예측 고객 세분화, 차원 축소 게임 플레이, 로봇 제어

 
게임 비유

  • 지도학습: 공략을 보면서 게임을 배우는 것
  • 비지도학습: 공략 없이 여러 플레이어들의 게임 영상을 보며 전략의 공통점을 파악하는 것
  • 강화학습: 직접 게임을 하면서 이기면 보상, 지면 패널티를 적용해 전략을 최적화하는 것