글로벌 영상 기술 기업 하이퍼커넥트(대표 안상일)는 자연어처리(NLP) 분야 최고 국제학회 ‘EMNLP(Empirical Methods in Natural Language Processing) 2021’에서 논문을 발표했다고 18일 밝혔다.
하이퍼커넥트는 11월 7일부터 11일까지 도미니카공화국 푼타카나(Punta Cana)에서 온·오프라인으로 동시 진행된 EMNLP 2021에서 ‘효율적인 일상 대화를 위한 대규모 생성 모델에서 검색 모델로의 지식 증류 기법’(Distilling the Knowledge of Large-scale Generative Models into Retrieval Models for Efficient Open-domain Conversation)’ 논문을 발표했다.
일상 대화에서 대규모 생성 모델의 챗봇 성능은 언어 모델의 크기가 커짐에 따라 비약적으로 발전했으나, 실제 서비스에 적용 시 답변 대기시간이 길다는 문제점이 있다. 반면에 검색 모델은 답변 대기 시간이 훨씬 짧아질 수 있지만 사전에 정의된 답변 집합으로 제한돼 대규모 생성 모델에 비해 성능이 떨어지는 단점이 있다. 이에 하이퍼커넥트는 빠르게 답변할 수 있는 검색 기반 모델에 대화의 품질을 높일 수 있는 생성 모델의 지식을 주입해 효율적으로 서비스를 운영할 수 있는 G2R(Generative-to-Retrieval distillation)을 제시했다. 이렇게 훈련된 검색 기반 대화 시스템은 기본 검색 모델에 비해 상당히 향상된 성능을 제공하면서도 대규모 생성 모델보다 추론에 소요되는 지연 시간이 단축된다.
하이퍼커넥트 하성주 AI랩 총괄 디렉터는 “IT 업계 뿐만 아니라 의료, 금융, 교육 등 다양한 산업 분야에서 24시간 응답 가능한 챗봇 서비스가 접목되고 있다”며 “하이퍼커넥트의 이번 논문은 챗봇을 통해 향상된 품질의 답변을 빠르게 전달하는 기술로서, 관련 서비스 품질을 한 단계 높이는 데 기여할 것으로 기대된다”고 말했다.
한편, 하이퍼커넥트는 자체 AI랩 운영을 통해 실제 서비스 제작, 운영 단계에서 활용할 수 있는 기술을 지속적으로 개발, 발표하고 있다. 음성 언어 처리 분야의 세계 최고 권위를 인정받는 '인터스피치’(INTERSPEECH)에서 2년 연속으로 음성 인식 기반 키워드 검출, 음성 합성 등 음성 분야 AI 연구 성과를 공개했다. 올해 초에는 롱테일 이미지 분류 문제를 해결할 수 있는 방안을 제시하며 글로벌 최고 수준의 딥러닝 분야 컨퍼런스 ‘CVPR 2021’에서 연구 성과를 발표한 바 있다.
이윤혜 기자 dbspvpt@datanews.co.kr
[ⓒ데이터저널리즘의 중심 데이터뉴스 - 무단전재 & 재배포 금지]