핵심 요약
카카오의 Kanana 조직은 사람처럼 보고 듣고 말하는 멀티모달 언어모델 개발을 통해 한국적 맥락 이해를 심화하려는 경험을 공유합니다.
주요 경험
- 텍스트, 이미지, 음성 등 다중 모달 정보를 동시에 처리하는 모델 설계에 집중
- 한국적 맥락 반영을 위한 데이터 구성과 평가 관점의 개선을 시도
- 지난 5월 국내 최초로 통합 멀티모달 접근을 도입하려는 시도를 진행
얻은 인사이트
- 다중 모달 정보를 하나의 표현으로 통합하는 학습의 필요성과 도전에 주목
- 맥락 반영의 충분성 여부가 모델 이해도와 활용도에 영향을 줄 수 있음
- 초기 방향성 설정과 명확한 목표 정의가 개발 속도에 중요한 역할을 함



