영국 엘리자베스 여왕의 연설문을 작성하여 많은 사람들에게 충격을 안긴 인공지능 GTP-3을 기억하는가? 지난 5일, 오픈AI는 공식 블로그에 GTP-3에서 한 단계 업그레이드된 DALL·E를 공개했다. 오픈AI의 공동창업자 서츠케버는 “GPT-3을 사용해 텍스트에 대한 상당한 진전을 이룰 수 있었지만, 문제는 세상이 텍스트만으로 구축되지 않는다.”라고 말하며 DALL·E의 제작 의도를 밝혔다.
관련 기사: AI, 英 엘리자베스 여왕 연설문 작성...인간 대체할 수 있을까?
텍스트 넘어 이미지까지
자연어처리 인공지능 모델인 GPT-3은 말로 단순히 설명해주는 것만으로 실제 작동하는 앱을 코딩하고 웹페이지를 만들 정도로 똑똑한 AI이다. DALL·E는 이미지용 GPT-3라고도 표현할 수 있다. 기존의 GTP-3이 사용자가 요구한 텍스트 구문을 분석하여 그에 해당하는 작업을 실행했다면, DALL·E는 단어와 문장 대신 픽셀과 이미지를 만들어낸다.
DALL·E는 오픈AI에서 새롭게 도입한 CLIP이라는 신경망으로 방대한 양의 텍스트-이미지 쌍의 데이터 세트를 훈련한다. CLIP은 자연어로 시각적 개념을 학습하여 텍스트와 이미지를 연결하는 신경망으로, 텍스트 구문에서 이미지를 생성할 수 있도록 도와준다.
이미지 데이터는 큐레이팅, 라벨링으로 그룹화한 방식이 아니라 이미지와 이를 묘사한 단순한 캡션으로 구성된다. 결과적으로, DALL·E는 학습하지 않은 이미지를 새롭게 창조해낸다. 심지어 전혀 관련 없는 말들도 그럴듯하게 연결하고 이를 다양한 스타일로 표현할 수 있다.
엉뚱한 말조차 이미지로 표현하는 DALL·E
DALL·E가 만들어낸 “개를 산책시키는 아기 무” 그림은 DALL·E의 능력을 입증하는 대표적인 그림이다. 이는 동물, 사물을 의인화하면서 전혀 관련 없는 개념들까지 결합하는 기능을 보여준다. 이와 비슷하게 “아보카드 모양의 안락의자”, “하프로 만든 달팽이” 이미지 또한 이질적인 아이디어를 결합하여 사물을 합성할 수 있는 DALL·E의 능력을 잘 드러낸다.

원근감, 3차원 시각화, 클로즈업, 내부 단면을 보여주는 X레이 스타일, 파노라마 옵션 등의 기능을 이용해 같은 대상을 여러 스타일로 표현할 수도 있다.
지리적 지식과 시간적 지식을 고려해서 그림을 나타내기도 한다. DALL·E의 작업물 중, 시대별 전화기 사진, 시간별 샌프란시스코의 밤거리 모습은 AI가 텍스트 요구만으로 그려낸 이미지가 맞는지 의심이 될 정도로 이 능력을 잘 드러낸다. ‘일출에 들판에 앉아있는 카피바라’ 이미지를 요구했을 때 일출 상황에 맞게 몸에 비치는 빛, 그림자를 표현하기도 했다.
놀라운 것은 이 모든 DALL·E의 능력을 오픈AI조차 예상치 못한 것이다. 오픈AI는 “우리는 이 기능이 나타날 것이라고 예상하지 않았다. 이를 장려하기 위해 신경망이나 훈련 절차를 수정한 적이 없다”고 강조했다.
예상치 못한 기능을 할 수 있었던 건 바로 이미지를 설명하는 자연어 캡션 덕분이다. 자연어 캡션은 AI가 개체들의 개념을 모으고 그 개체들을 합성할 수 있는 능력을 갖추게 했다.
여전히 삐거덕거리는 DALL·E
하지만 모든 시제품이 그렇듯, DALL·E도 완벽하지 않다. '파란 딸기 이미지가 있는 스테인드글라스 창'이라는 텍스트로 만들어진 이미지 일부에 창문이나 딸기가 아예 없는 결과물도 있었다. 텍스트 프롬프트에 더 많은 물체가 등장할수록 물체와 색상의 연관성을 혼동하기 쉬워 성공률이 감소하기도 하고 이미지를 생성하는 과정에서 기존 온라인에 존재하는 이미지를 모방할 가능성이 있다.

해외의 상반된 반응
DALL·E의 발표 소식에 사람들은 찬사를 보내기도, 염려를 표하기도 했다. AI 석학사 앤드류 응은 “텍스트와 이미지 조합으로 멋진 이미지 생성 모델을 만들어낸 오픈AI에 축하를 보낸다”고 찬사를 보냈다. 구글 딥러닝 전문가 프랑소와 숄레, 조지아 대학교수 마크 리들 등, IT업계 종사자들은 DALL·E의 업적은 감동적이고 작업물의 수준 또한 훌륭하다며 DALL·E의 성과를 높이 평가했다.
한편, 디자이너들의 미래와 저작권 문제에 대해 윤리적 부분에서 염려의 목소리도 들린다. AI가 인간 고유의 영역인 예술 영역까지 발을 들이게 된다면, 인간이 설 자리는 거의 없을 것이다. 지금 DALL·E의 수준이 초기 단계에 머물러있어 이 문제는 수면 위로 떠오르지 않았지만, AI가 결과물들로 스스로 학습하여 수준이 높아지면 충분히 인간을 대체할 수 있어 문제가 심각해질 것이다.
여기에 더해 AI가 기존에 존재하는 이미지를 모방하면 저작권 침해 문제로 번져 일이 커진다. 저작권 침해에 따른 손해배상은 어떻게 받아야 하며, 책임은 누구에게 물을 것인지, 해결해야 할 숙제는 더 많아지고 이에 대한 법률 개정은 쉽지 않아 골치 아픈 일이 된다.
영국의 IT 매체 더레지스터는 또 다른 문제로 편견을 내세웠다. 누군가 의도적으로 DALL·E를 모욕적이고 인종차별적으로 사용하여 스스로 편향된 데이터를 학습하면, AI 채팅봇 ‘이루다’처럼 악용될 가능성이 커진다. 게임 개발자 알렉스 샴팬다드는 “이를 걸러 낼 사람들이 있는 한 괜찮지만, DALL·E가 독립형 자동화 도구가 된다면 문제가 될 것입니다.” 말하며 우려를 표했다.
이에, 오픈AI는 “우리는 생성 모델을 포함하는 작업이 사회에 중대한 영향을 미칠 가능성이 있음을 알고 있습니다. 앞으로 DALL · E와 같은 모델이 특정 업무 프로세스 및 직업에 미치는 경제적 영향, 모델 출력의 편향 가능성, 이 기술이 암시하는 장기적인 윤리적 문제와 같은 사회적 문제와 어떻게 관련되는지 분석 할 계획이다”라고 밝혔다.
[ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]