
카카오브레인이 초거대 멀티모달 인공지능(AI) '민달리(minDALL-E)'의 업그레이드 버전 'RQ-Transformer'를 깃허브에 공개했다.
19일 카카오브레인에 따르면, 이번에 공개된 RQ-Transformer는 39억개의 매개변수로 구성돼 있으며 3000만쌍의 '텍스트-이미지' 데이터셋을 학습한 text-to-image AI모델이다. 처음 보는 텍스트의 조합을 이해하고 이에 대응하는 이미지를 만들어낼 수 있다.
이를테면 '사막에 있는 에펠탑'이란 텍스트 입력 시 그 뜻을 헤아려 관련 그림을 다수 생성한다.
RQ-Transformer는 기존에 공개한 이미지 생성모델 민달리와 비교해 모델 크기는 3배, 이미지 생성 속도와 학습 데이터셋 크기는 2배 늘어났다.
특히 민달리가 미국의 인공지능 개발 기업 오픈AI가 공개한 'DALL-E'를 재현하는 것에 가까웠다면 RQ-Transformer는 카카오브레인 만의 독자적인 기술로 개발됐다는 점에서 의미가 더욱 크다.
카카오브레인은 이번 AI모델의 기술성을 인정받아 오는 6월 세계적인 학술대회 'CVPR 2022'에 해당 논문을 발표할 예정이다.
[ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]