피오유엘, 한국어 특화 AI 데이터셋 공개

피오유엘, 한국어 특화 AI 데이터셋 공개
 
피오유엘은 AI 개발 기술 브랜드인 라미(LLMAI)가 AI 한국어 전용 고퀄리티 데이터셋의 수십만 개 오픈소스를 공개했다고 19일 밝혔다. 이 데이터셋은 AI의 단순한 모델 제공을 넘어, 해당 모델을 학습시키기 위한 한국어 데이터셋도 함께 포함됐다.
 
이와 동시에 출범한 ‘열린생각’이라는 70억, 140억 파라미터의 한국어 최적화 화이트 박스 AI는 AI 챗봇으로서 API와 SDK를 통해 사용이 용이하며, 사고 과정이 투명하게 드러나 AI의 답변을 최적화된 응답으로 제공할 수 있다.
 
기존 영어를 중점으로 특화시킨 SLM과는 다르게, 한국어를 주로 다루는 언어 모델을 학습 중이다. 소형 언어 모델의 한계로 여겨졌던 한국어 성능을 딥시크(Deep Seek)와 같은 생성형 언어 모델을 토대로 생성한 사고 과정이 더해졌다.
 
라미 ‘열린생각’은 데이터 과학자, AI 연구자, 한국어 기반 소프트웨어 개발자, AI 기술을 활용하고 싶은 기업 관계자 등 다양한 사람들이 사용할 수 있도록 설계됐다. 많은 사용자에게 AI와 소통할 수 있는 AI 챗봇을 제공해, AI 기술의 활용 범위를 넓히는 데 기여할 것으로 기대된다.
 
라미팀은 “수많은 AI 개발자 및 관계자들이 이제는 쉽고 간편한 한국어 형태의 고퀄리티 데이터셋을 사용함으로써, 앞으로 AI 개발의 시대는 더 빨리 다가올 것"이라며 "이 데이터셋은 한국어 AI 모델의 발전에 중요한 역할을 할 것으로 보인다"고 말했다.
 
이윤혜 기자 dbspvpt@datanews.co.kr

[ⓒ데이터저널리즘의 중심 데이터뉴스 - 무단전재 & 재배포 금지]

맨 위로