핵심 요약
에잇퍼센트가 신용평가에 머신러닝을 적용한 모형 비교와 데이터 전처리 전략을 소개합니다.
구현 방법
- 데이터 전처리: Special Value 처리, 원-핫 인코딩, 누락값 처리, 날짜 변수 변환, Min-Max 스케일링
- 모형: 로지스틱 회귀, 결정 트리, 랜덤 포레스트, 그래디언트 부스팅(XGBoost), MLP/ResNet/Transformer
- 특징 선택: mrmr 기반 변수 선택과 기간 교집합으로 안정화
- 데이터 소스: CB 데이터와 대안 데이터 활용
주요 결과
- Transformer가 NN 중 최고였으나 XGBoost보다 성능은 낮음
- Tabular 데이터에선 XGBoost가 일반적으로 우수
- 지속적인 아키텍처 연구 필요

