인공지능(AI) 전문기업 와이즈넛(대표 강용성)은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 지원하는 2022년 AI 학습용 데이터 구축사업에서 ‘한국어 SNS 데이터 고도화’ 과제의 주관기관으로서 2년 연속 선정됐다고 18일 밝혔다.
와이즈넛은 크라우드웍스, 비투엔과 컨소시엄을 구성해 한국어 SNS 데이터 고도화를 위한 AI 학습용 데이터 구축과제를 수행한다.
연내 완료 예정인 이번 사업은 2020년에 구축돼 AI 통합 플랫폼 ‘AI 허브’에 공개돼 있는 카카오톡 일상 대화 중심의 ‘한국어 SNS 데이터’ 약 180만 건과 2021년에 구축된 각종 SNS 데이터가 포함된 ‘주제별 텍스트 일상 대화 데이터’ 약 10만 건을 포함, 총 190만 건의 한국어 SNS AI 학습용 데이터를 대상으로 전수검사를 진행해 기존 데이터를 재검증 및 최신화하고, 이를 다시 AI 허브에 공공데이터로 공개하는 것을 목표로 한다.
특히 이번 사업에서는 ▲하나의 대화 안에 여러 주제가 혼재하는 경우를 고려한 대화 데이터의 멀티 라벨링(Multi-Topic Labeling) ▲SNS 데이터 특성을 반영한 다중 분류체계 수립 ▲2022년 개인정보 비식별화 기준 등을 반영한 개인정보 클렌징 등을 수행한다.
이를 통해 한국어 SNS 데이터의 정확성을 높이고 주제별 데이터를 다양하게 추출하여 최적의 AI 대화 알고리즘과 모델을 개발 및 구축할 수 있게 된다.
또 최종 구축된 한국어 SNS 데이터는 AI 허브를 통해 공공데이터로 개방되기 때문에 각 비즈니스 활용 목적에 맞는 양질의 한국어 SNS 데이터를 누구나 쉽게 확보하고 활용할 수 있다.
이러한 일련의 과정을 통해 마련된 고도화된 한국어 SNS 데이터는 추후 한국어 대화 데이터와 한국어 언어 모델 상용화에 기여할 수 있고, 구어체 및 일상 대화를 반영해 한층 자연스러운 AI 상담 및 챗봇 기술 구현 및 AI 비서, 스마트 홈 등 한국어 구어 자연어 처리 엔진 개발에도 도움이 될 것으로 기대된다.
이번 사업의 주관사인 와이즈넛은 22년간 빅데이터 수집 및 분석, AI 모델 및 기술 개발을 수행해 온 AI 전문기업이다. 그간 자연어 이해 및 처리 기술을 자체 개발하며 축적한 한국어 기반 사전학습 언어모델 기술력과 AI 사업 노하우를 통해 일상 대화 데이터를 활용한 사전학습 언어모델 기반의 대화 응답 선택 모델을 구축할 계획이다.
강용성 와이즈넛 대표는 “이번 한국어 SNS 데이터 고도화 사업은 양질의 일상 대화용 학습 데이터를 확보하고 이를 공공데이터로 개방하는 과정에서 그 의미가 있다”며 “와이즈넛은 이번 사업을 통해 AI 학습용 데이터를 지속 고도화해 디지털 플랫폼 정부가 추구하는 AI 및 데이터 산업 생태계 조성 및 활성화에 기여할 것“이라고 말했다.
강동식 기자 lavita@datanews.co.kr