데이터 정제/분리하기

백PM ㅣ 2022. 10. 5. 15:11

결측값 : 값이 Null, None, NaN 인 것

 

머신러닝 모델의 입력 값으로 결측값을 사용할 수 없으므로 결측값을 처리해야함

 

결측값 처리 방식

1) 해당 샘플 삭제

2) 결측값이 많이 존재하는 변수 삭제

3) 결측값을 다른 값으로 대체 ex) 평균, 중앙값, 머신러닝예측값, 0

 

이상치(Outlier) 처리

이상치가 있으면 모델의 성능을 저하할 수 있다.

이상치는 일반적으로 전 처리 과정에서 제거하며, 어떤 값이 이상치인지 판단하는 기준이 중요함

 

이상치 판단 기준

1) 통계 지표(카이제곱 검정, JQR 지표 등)

2) 데이터 분포를 보고 직접 판단

3) 머신러닝 기법을 사용하여 이상치 분류

 

데이터 분리

머신러닝 모델을 평가하기 위해서는 학습에 사용하지 않은 평가용 데이터가 필요

전체에서 약 7:3, 8:2 비율로 데이터를 분리함

 

지도학습 데이터 분리

지도학습의 경우 feature 데이터와 label 데이터를 분리하여 저장합니다.

feature 데이터 : 라벨을 예측하기 위한 값

label 데이터 : 예측의 대상이 되는 데이터

'빅데이터,AI' 카테고리의 다른 글

자료형에 따른 데이터 전처리  (1) 2022.10.05