딥러닝

one hot 인코딩

샌쥬 2025. 1. 15. 16:12

1. 원-핫 인코딩이란?

원-핫 인코딩은 정수형 데이터(카테고리)를 컴퓨터가 처리하기 쉽게 벡터 형식으로 변환하는 방법입니다. 변환된 벡터는 해당 카테고리의 위치에만 1을 표시하고, 나머지는 0으로 채워집니다.

예를 들어: 정수형 레이블: [0, 1, 2]

원-핫 인코딩 결과:

[[1, 0, 0],
 [0, 1, 0],
 [0, 0, 1]]

2. to_categorical 함수 사용법

from tensorflow.keras.utils import to_categorical

to_categorical(y, num_classes=None, dtype="float32")

매개변수:

  • y: 정수형 레이블 데이터 (리스트나 Numpy 배열).
  • num_classes: 클래스의 총 개수 (원-핫 인코딩 벡터의 길이). 설정하지 않으면 y에서 자동으로 계산합니다.
  • dtype: 결과 벡터의 데이터 타입. 기본값은 "float32".

반환값:

  • 입력 데이터가 원-핫 인코딩된 Numpy 배열.