핵심 요약
타다의 비트윈 데이터팀은 Spark Summit EU 2017에서 Spark의 최신 흐름과 스타트업 데이터 파이프라인의 실무 가능성을 확인했습니다.
주요 경험
- 딥러닝 파이프라인 도입 방향 확인: 데이터 처리와 학습/추론 파이프라인의 단일 인터페이스 가능성 주목
- 커뮤니티 지식 공유와 데모 평가: 딥러닝 파이프라인 데모의 실무 적용 가능성 확인
- 스타트업 대용량 데이터 운영의 도전 이해: 하루 2TB 규모, 2천만 명 이상 사용자 데이터 관찰
얻은 인사이트
- 파이프라인 통합이 운영 효율성과 개발 인프라 단순화에 기여할 수 있음
- MLlib의 딥러닝 미지원으로 현장의 파이프라인 설계 시 외부 학습 고려 필요
- DataFrame/DataSet API 강화 방향에 주목