패브릭 기반 멀티모달 데이터 플랫폼 전문기업 미소정보기술(대표 안동욱)은 의료 및 산업분야 대규모언어모델(LLM) 인공지능(AI) 구축과 소규모언어모델(sLLM) AI 구축 시 양질의 빅데이터 확보에 꼭 필요한 비라벨링 데이터 표준화 솔루션 ‘데이터스캔(Data Scan)’을 출시한다고 15일 밝혔다.
데이터스캔은 의료 및 산업분야에서 사람의 손으로 가공된 라벨링 데이터(지도학습)가 아닌, 챗GPT 등 초거대AI 개발에 필수인 양질의 빅데이터를 확보할 수 있는 비라벨링 데이터 표준화 솔루션이다.
초거대AI 사전학습에 필요한 빅데이터 구축(텍스트)을 위해 데이터 등록부터 분류체계, 단어사전 구축 통한 자연어 처리 및 분류분석, 텍스트 분석, 산업별 적용 도메인에 따른 데이터 후처리 등을 실시간 분석한다. 또 기업·공공기관의 내부 문서 보안이 강화된 패브릭 기반 멀티모달 데이터 플랫폼 ‘스마트빅(smart BIG)’을 통해 LLM, sLLM 구축 시 고도화된 언어처리 기술을 원스톱으로 제공한다.
데이터스캔은 의료분야에서는 의료영상 판독을 통한 건강검진·진료 소견서 작성, 과거 진료기록 요약, 치료 방법·처방전, 개인건강관리, 반려동물 질병상담 등에 활용할 수 있다. 금융분야에서는 고객상담, 금융상품 추천, 신용평가, 금융사고 감지 등 금융전반의 AI서비스에 활용할 수 있고, 법률분야에서는 계약서, 소장, 법조문 제시, 판결문(법원) 등 서류 작성 시간을 획기적으로 줄이고 유사 판례를 쉽게 찾아주는 서비스에 적용할 수 있다.
미소정보기술은 의료데이터에서 산업데이터까지 데이터 구분 없이 분석이 가능한 전문 도메인 날리지와 패브릭 기반 멀티모달 데이터 플랫폼 스마트빅을 통해 기업 및 공공기관에 한국형 챗GPT, LLM, sLLM 등 생성형AI 서비스 품질을 높일 수 있도록 고도화에 집중 투자하고 있다.
안동욱 미소정보기술 대표는 “생성형AI 시대에 양질의 데이터는 AI 경쟁력의 핵심”이라며 “의료, 산업 데이터 분석 및 멀티모달 데이터 플랫폼으로 똘똘한 데이터를 제공해 초거대AI 기업들의 경쟁력을 지원하는 데이터 인에이블러(Data Enabler) 역할을 담당할 것”이라고 말했다.
강동식 기자 lavita@datanews.co.kr