핵심 요약
한글과컴퓨터는 문서를 청크 단위로 분석하는 청크지식생성모델을 도입해 키워드, 제목, 후보 질문을 단일 인코더-멀티태스크 방식으로 생성하고, Qdrant 벡터 검색을 통해 Top@1 84.26%, 평균 91.39%의 검색 정확도를 달성했다.
구현 방법
- 입력 청크를 한 번 인코딩해 3개 모듈로 병렬 생성하는 단일 인코딩 구조
- 키워드 추출은 시퀀스 태깅 방식으로 수행
- 제목 생성(Decoder 1) 및 후보 질문 생성(Decoder 2)을 독립 디코더로 구현
문장 구분으로 원문/제목/질문을 구분해 E5-large 임베딩 활용, Qdrant 벡터 DB 사용
주요 결과
- Top@1 84.26%, 평균 91.39%의 검색 정확도 달성
- GPU 메모리 사용률 10% 이하로 유지되어 RAG 환경에서도 실시간 응답 가능

