인공지능(AI) 소프트웨어 전문기업 코난테크놀로지(대표 김영섬)는 자체개발 대규모 언어모델 ‘코난 LLM’이 파라미터 410억 개 학습을 마쳤다고 15일 밝혔다.
코난테크놀로지는 전체 토큰 7000억 개로 파라미터 410억 개 모델의 학습을 마쳤다. 한국어 학습토큰은 13.1B 모델 3000억 개에서 1000억 개 늘어난 4000억 개다. 양질의 대규모 데이터로 학습된 41B 모델은 최적화 및 미세조정을 거쳐 고객에게 제공할 예정이다.
코난 LLM은 문서 생성뿐만 아니라 자동 도표 생성, 자동 요약, 참고문서 제공 등을 통해 문서 생산성을 크게 향상시킨다. 나아가 검색증강생성(RAG)에 자사의 강점인 ‘벡터 검색’을 활용해 성능을 업그레이드했다.
생성형 AI가 근거 있는 답변을 내놓게 만드는 RAG 기법에 벡터검색엔진 ‘코난 서치6’를 접목한 결과, 고객의 내부 문서나 최신 데이터 등을 기반으로 한 관련 문서에서 추출한 신뢰도 높은 최신 답변이 제공된다.
이러한 방식은 질의응답뿐만 아니라 문서 생성 시에도 적용돼 전체적인 답변 품질을 향상시키고, 환각 현상을 해소시켰다.
사용자별 권한 관리에도 신경 썼다. LLM 사용 시 부서별, 직책별로 사내 문서와 데이터에 대한 열람 및 접근 권한을 부여하고, 이에 따라 반환되는 정보는 엄격하게 제어해 철저한 접근제어 환경을 마련했다.
고객이 데이터 규모나 예산, 용도 등에 따라 13.1B 또는 41B 파운데이션 모델 중 원하는 사양을 선택하면 기업 전용 관리도구인 '코난 LLM 스튜디오'가 함께 제공된다.
코난 LLM 스튜디오는 고객의 내부 데이터나 문서에 대해 도메인 추가 학습부터 미세 조정에 이르기까지 AI 전문 개발자가 아니더라도 쉽고 빠르게 업무에 적용할 수 있도록 지원하며, 기업별 최적화된 문서 양식과 프롬프트를 맞춤형으로 제공한다.
코난 LLM은 지난 8월 13.1B 출시 이후 9월 청와대에서 열린 대한민국 초거대AI 출정식에서 윤석열 대통령에게 시연을 선보였으며, 행정안전부의 AI 행정지원 서비스 시범 개발 PoC도 참여하며 범 정부 AI 도입 수요에 부응하고 있다.
기본적으로 온프레미스로 구축되며, 라이선스 및 연간 구독 모델 방식 등 판매방식 다변화를 계획하고 있다. 또 AICC 비즈니스를 지원하는 자사의 ‘코난 보이스봇(Konan VoiceBot)'과 같은 서비스에도 도입되는가 하면 여러 하드웨어에 LLM을 내재화해 새롭게 주목 받는 온디바이스 AI 시장에 뛰어들 채비도 갖추고 있다.
김영섬 코난테크놀로지 대표는 “지속적인 모델 고도화로 연내 순차 학습을 마치게 돼 기쁘다”며 “코난 LLM을 도입해 여러 AI 비즈니스 수요에 적극적으로 대응하겠다”고 말했다.
김민지 기자 honest@datanews.co.kr