│천승태 데이터스트림즈 연구소장
2022년 11월 ‘GPT 3.5’와 ‘챗(Chat)GPT’의 등장은 전 세계적으로 주목을 받았고, 이로 인해 새로운 인공지능(AI)의 시대가 열렸다. 챗GPT는 출시 2개월 만에 활성사용자 1억 명을 달성하고 모든 AI 연구의 중심에 거대규모 AI, 생성형 AI가 자리잡게 됐다. AI 기술 발전은 1년 남짓의 시간 동안 매일 새로운 기술이 등장하는 급격한 발전을 하고 있다.
AI 기술을 주도하고 있는 초거대규모 AI(Hyper-Scale AI)는 공개돼 있는 모든 지식을 학습하면서 답변의 정확성을 키우는 형태의 기술개발을 진행하면서 더 많은 데이터, 더 큰 규모의 AI로 발전하며 규모의 경쟁을 시작했다. 이에 세계 각 기업 및 연구기관에서 공격적으로 투자하면서 거대규모 AI의 크기가 경쟁적으로 커졌으며, 이를 학습하고 운영하기 위한 비용도 동시에 증가하게 됐다.
최근에는 초거대규모 AI의 대표 사례인 거대언어모델들이 텍스트 기반의 언어뿐만 아니라 이미지, 음성과 같은 다양한 형태의 데이터에 대한 입출력이 가능한 멀티모달(multimodal) 기능을 탑재하면서 규모의 확대가 가속화되고 있다.
▲거대규모 AI 규모 경쟁 / 자료=LifeArchitect
이러한 초거대규모 AI의 크기 증가와 이를 운영하기 위한 하드웨어 규모의 증가는 AI 서비스를 위한 투자비용을 급격히 증가시켰다. 이에 따라 초거대규모 AI 기술은 오픈(Open)AI, 구글(Google), 메타(Meta) 등 글로벌 빅테크가 주도하고 있는데, 그들도 천문학적인 운영비용을 고민해야 할 정도다.
이러한 상황 때문에 글로벌 빅테크에 대한 의존성과 초거대규모 AI의 운영비용의 효율성에 대한 비판은 꾸준히 제기되고 있다.
이에 대한 대안으로 제시되고 있는 것이 sLLM(small LLM)이다. sLLM은 기존의 초거대규모 AI인 LLM(Large Language Model, 거대언어모델)의 규모를 줄이고 전 인류적 지식보다는 특정 도메인과 특정 언어에 특화되도록 학습한 AI 언어모델이다.
sLLM은 모델의 규모를 줄이고 특화된 영역의 데이터를 학습해 일반적인 목적의 AI보다는 특수 목적 AI를 개발하고 이를 업무에 활용하는 형태의 작은 규모 AI에 적합하게 하는 것이 목표다. 초거대규모 AI의 파라미터 수가 100B에서 최근 1T를 넘어서고 있는 반면, sLLM은 파라미터 수가 7~70B 정도로, 하나의 고성능 서버에서 운영 가능한 수준을 목표로 하는 것을 알 수 있다.
▲주요 sLLM 및 모델 크기 / 자료=데이터스트림즈
이러한 sLLM의 등장과 활용은 거대 규모의 서비스 환경을 보유하지 못한 사용자 및 기업도 공개하기 어려운 내부 데이터를 활용해 AI 서비스를 구축, 활용할 수 있는 방법이 되며, 기업 내부 데이터를 활용한 특수 분야에 전문화된 AI를 개발할 수 있게 된다.
가트너 2024년 10대 전략기술 트렌드에서도 초거대규모 AI뿐만 아니라 클라우드 컴퓨팅, 오픈소스의 결합과 다양한 언어모델의 등장으로 소수의 기업에 의존적이지 않고 다양한 방법으로 생성형 AI를 활용할 수 있는 ‘보편화된 생성형 AI(Democratized Generative AI)’를 전략기술로 주요하게 다루고, 그 핵심 기반으로 ‘자기 통제 기반(Self-Governance)’을 들고 있다.
▲가트너 10대 전략기술 트렌드(위)와 보편화된 생성형 AI / 자료=가트너
데이터스트림즈는 이러한 AI 기술 트렌드에 발맞춰 sLLM 기반의 정보/지식 통합 서비스를 기획하고 연구개발을 진행해 베타 버전을 완성했다.
정보/지식 통합 서비스는 기업에서 영위하는 사업에서 데이터 기반의 의사결정을 하기 위해 활용하고 있는 정보 시스템과 사업 과정에서 얻게 되는 지식을 융합해 정보(Data)와 지식(Knowledge)에 의한 의사결정을 할 수 있도록 지원하는 서비스다.
일반적으로 정보 시스템은 기업의 활동에서 생겨나는 데이터를 기반으로 구축되며, 지식은 기업의 활동 과정에서 생성되는 문서(Document)로 구성된다. 기존의 정보 시스템은 데이터 기반의 시스템이므로 잘 구성된 정형 데이터이고, 지식은 문서 기반의 비정형 데이터이기 때문에 많은 경우 지식을 데이터로 변환하기 위해 많은 노력이 필요했다. 따라서 지식을 데이터로 변환하는 일은 기업의 핵심 지식만을 대상으로 해왔다.
데이터스트림즈는 이러한 기업의 환경을 잘 이해해 비정형 데이터인 지식을 언어모델을 활용해 자동으로 데이터로 변환되도록 하는 기술을 개발하고 이를 기존의 정보 시스템과 데이터로 통합하는 서비스를 기획해 연구개발하고 있다.
▲정보/지식 통합 서비스 개념 / 자료= 데이터스트림즈
이 시스템의 핵심 기술요소는 ▲지식 통합을 위한 AI 언어모델 ▲정보/지식 통합 메타데이터 저장소 ▲데이터 패브릭 기반 데이터 통합이다. 이 세 가지 기술요소를 통합한 제품은 개발이 완료돼 내부 테스트를 거쳐 올해 2분기에 출시할 계획이다.
◆지식 통합을 위한 AI 언어모델=기업의 내부 지식을 언어모델을 활용해 데이터로 변환하는 기술로, sLLM이 기술의 핵심이다. 거대규모 AI를 활용한 데이터 변환도 기술적으로 가능하지만, 이 경우 기업 내부 데이터의 외부 제공 문제, 서비스 운영을 위한 운영비용 문제로 제약이 있기 때문에 소규모 인프라를 활용한 서비스 구성을 위해 sLLM을 기반으로 해야 한다.
이 기술의 핵심은 기업이 보유한 문서로부터 지식을 추출하고 이를 데이터로 변환하며, 결과를 정보/지식 통합 메타데이터 저장소로 전달하게 된다. 이 과정은 언어모델의 특징으로, 서비스 구축 이후에 발생하는 지식도 언어모델이 잘 활용할 수 있는 데이터 파이프라인을 잘 구성해 지식의 변화에도 대응할 수 있도록 해야 한다.
◆정보/지식 통합 메타데이터 저장소=메타데이터는 데이터의 설명정보, 부가정보를 지칭한다. 정보/지식 통합 메타데이터는 기업의 기존 정보 시스템의 데이터에 대한 정보와 언어모델이 해석한 지식 정보를 통합해 실제 데이터를 통합하기 위한 기반정보를 축적하는 저장소다.
데이터를 통합하고 활용하기 위해서는 보유한 전체 데이터에 대한 정보가 필수적으로 필요하고, 이를 최신화, 자동화하는 기술이 반드시 필요하게 된다. 정보/지식 통합 메타데이터 저장소는 이러한 데이터의 저장소뿐만 아니라 이를 최신 상태로 유지하는 모든 자동화된 기술을 함께 제공한다.
◆데이터 패브릭 기반 데이터 통합=데이터 패브릭은 실제 데이터를 통합하지 않고 데이터의 정보(메타데이터)를 활용해 사용자의 요청에 즉시 데이터를 통합하는 ‘On-demand’ 기반의 데이터 통합 및 전달 체계다. 기업의 정보 시스템의 데이터와 지식에서 추출된 지식 데이터를 미리 통합해 비즈니스 환경의 변화에 따라 지속적으로 시스템을 개선해 나가기보다 필요한 정보를 필요한 시점에 통합하는 방식으로 비즈니스의 변화에 유연하게 대응할 수 있게 된다.
▲정보/지식 통합 서비스 개요 / 자료=데이터스트림즈
정보/지식 통합 서비스는 기존의 데이터 기반 의사결정 지원 서비스에서 한 걸음 더 나아가 지식에 기반한 의사결정을 더한 개념으로, sLLM 기술의 발전과 함께 성장할 것으로 기대하고 있다. 사람의 경험과 지식에 의한 데이터 분석, 이를 활용해 왔던 현재의 비즈니스에서 AI의 도움을 통해 과거의 경험과 지식을 현재의 데이터와 융합해 새로운 인사이트를 발견하고 의사결정에 활용하는 시대가 더 가까워질 것으로 생각된다.
그리고 최근 많은 주목을 받으면서 빠르게 발전하고 있는 AI 언어모델은 규모와 데이터의 외부 제공, 서비스 비용 등 다양한 측면에서 도입과 활용에 고민할 부분이 많다. 이런 제약사항들로 인해 많은 연구자가 sLLM이라는 대안을 제시하고 오픈소스로 제공하고 있으며, 이를 활용하기 위한 다양한 도구와 정보도 함께 제공하고 있다.
sLLM 중심의 생태계는 초거대규모 AI의 발전과는 다른 전략과 방향으로 계속 성장할 것이므로 초거대규모 AI 활용에 제약이 있다면 sLLM의 활용을 고려해 보면 좋을 듯하다. 최근 국내에서 한국어를 타깃으로 하는 sLLM도 많이 연구되고 있어 더욱 좋은 선택지가 될 수 있다.
글=천승태 데이터스트림즈 연구소장
[ⓒ데이터저널리즘의 중심 데이터뉴스 - 무단전재 & 재배포 금지]