빅데이터,AI
데이터 정제/분리하기
결측값 : 값이 Null, None, NaN 인 것 머신러닝 모델의 입력 값으로 결측값을 사용할 수 없으므로 결측값을 처리해야함 결측값 처리 방식 1) 해당 샘플 삭제 2) 결측값이 많이 존재하는 변수 삭제 3) 결측값을 다른 값으로 대체 ex) 평균, 중앙값, 머신러닝예측값, 0 이상치(Outlier) 처리 이상치가 있으면 모델의 성능을 저하할 수 있다. 이상치는 일반적으로 전 처리 과정에서 제거하며, 어떤 값이 이상치인지 판단하는 기준이 중요함 이상치 판단 기준 1) 통계 지표(카이제곱 검정, JQR 지표 등) 2) 데이터 분포를 보고 직접 판단 3) 머신러닝 기법을 사용하여 이상치 분류 데이터 분리 머신러닝 모델을 평가하기 위해서는 학습에 사용하지 않은 평가용 데이터가 필요 전체에서 약 7:3, 8..
2022. 10. 5. 15:11