핵심 요약
토스가 Toss Next ML Challenge를 개최하면서 익명화 데이터 환경에서의 모델 설계와 실시간 서빙의 도전을 직접 체험했고, 피처 엔지니어링의 한계와 시계열 피처 활용의 가치를 실무 인사이트로 얻었다.
주요 경험
- 예선/본선 구조와 1,070만 샘플의 익명 데이터로 구성되었고 참가자 규모는 2,600명을 넘었습니다.
- 기본 피처 엔지니어링을 진행해 한 개의 정형 테이블로 문제용 데이터를 구성하는 과정을 체험했습니다.
- 상위 팀은 260개 모델의 앙상블과 37개의 파생 피처를 활용해 창의적 해결책을 제시했습니다.
얻은 인사이트
- 피처 엔지니어링보다는 모델 설계와 검증 전략의 중요성이 더욱 크게 나타난다는 점을 확인했습니다.
- 시계열 피처의 활용 가능성과 한계를 현장에서 확인했습니다.
- 데이터 기반 가설 설정과 검증의 중요성이 리더보드 성과로 연결된다는 점을 체감했습니다.

