핵심 요약
요기요의 Search Platform 팀은 Analyzer의 작동 원리와 형태소분석기/토크나이저의 차이를 설명하는 기술 글을 공개했습니다.
주요 특징
- Character Filtering으로 문자 정규화 및 필요 패턴 제거를 적용
- MeCabKoTokenizer 기반의 형태소 분석-어절 형성-토큰화의 3단계 처리
- 동의어, Shingle, N-gram, Stop 필터를 순차 적용하는 Token-Filtering
- 예시 키워드 '찜하다'에 대해 커스텀 토큰 구성을 적용해 정확도를 높임
적용 고려사항
- 오픈소스 MeCabKoTokenizer 활용 및 Elasticsearch 레퍼런스 참조 필요
- 토큰 필터의 순서 및 커스텀 토큰 구성 조정이 검색 품질에 큰 영향
- 동의어 관리 정책 수립 및 운영 필요


