범주형 자료 : 몇개의 범주로 이루어진 자료 ex) 이름, 성별, 등급, 순위
범주형 자료 분류
-명목형 자료 : 범주의 크기가 의미 없는 자료 ex) 이름, 성별
-순서형 자료 : 범주의 크기가 의미 있는 자료 ex) 등급, 순위
범주형 자료 변환 방식
명목형 자료
- 수치 매핑 방식 : 일반적으로 범주를 0, 1로 매핑
- 더미 기법 : 각 범주를 쪼갠 후 0, 1로 매핑
순서형 자료
-수치 매핑 방식 : 수치에 매핑하여 변환하지만 수치 간 크기 차이는 커스텀 가능 (크기 차이가 머신러닝 결과에 영향을 끼칠 수 있음)
수치형 자료는 머신러닝의 입력으로 바로 사용할 수 있으나 모델의 성능을 높이기 위해 데이터 변환 필요
수치형 자료 변환 방식
1) 스케일링 Scailing - ( 정규화, 표준화 )
정규화(Normalization)
표준화(Standardization)
2) 범주화 : 변수의 값보다 범주가 중요한 경우 사용
ex) 점수가 평균 이상이면 1, 평균 이하면 0
'빅데이터,AI' 카테고리의 다른 글
데이터 정제/분리하기 (1) | 2022.10.05 |
---|