범주형 자료 : 몇개의 범주로 이루어진 자료 ex) 이름, 성별, 등급, 순위

범주형 자료 분류

-명목형 자료 : 범주의 크기가 의미 없는 자료 ex) 이름, 성별

-순서형 자료 : 범주의 크기가 의미 있는 자료 ex) 등급, 순위

 

범주형 자료 변환 방식

명목형 자료

- 수치 매핑 방식 : 일반적으로 범주를 0, 1로 매핑

- 더미 기법 : 각 범주를 쪼갠 후 0, 1로 매핑

 

순서형 자료

-수치 매핑 방식 : 수치에 매핑하여 변환하지만 수치 간 크기 차이는 커스텀 가능 (크기 차이가 머신러닝 결과에 영향을 끼칠 수 있음)

수치형 자료는 머신러닝의 입력으로 바로 사용할 수 있으나 모델의 성능을 높이기 위해 데이터 변환 필요

 

수치형 자료 변환 방식

1) 스케일링 Scailing - ( 정규화, 표준화 )

정규화(Normalization)

표준화(Standardization)

2) 범주화 : 변수의 값보다 범주가 중요한 경우 사용

ex) 점수가 평균 이상이면 1, 평균 이하면 0

 

'빅데이터,AI' 카테고리의 다른 글

데이터 정제/분리하기  (1) 2022.10.05