
산프란시스코에 본사를 둔 AI 스타트업인 ElevenLabs가 음성 클로닝 기술에서 중요한 돌파구를 이뤄냈다. 회사의 새로운 AI 모델은 이제 30개 서로 다른 언어로 유창하게 말하는 목소리를 정확하게 모방할 수 있게 되었다. 이는 원래 지원되던 8개 언어에서 크게 확장된 것이다. 이러한 발전은 오디오북 제작과 같은 산업을 혁신할 잠재력을 가지고 있다.
이 발전 이전에, 여러 언어로 오디오북을 제작하는 과정은 시간이 많이 소모되었다. 적절한 보이스오버 아티스트를 찾고, 녹음 스튜디오를 예약하고, 후속 작업을 관리하는 데 주일이 걸렸다. 그러나 ElevenLabs가 개발한 새로운 Multilingual v2 모델로 이제 전체 과정을 단 몇 시간 안에 완료할 수 있다.
ElevenLabs의 기술을 사용하는 사용자들은 텍스트-투-스피치 도구와 특정 목소리를 클로닝하는 'VoiceLab' 두 가지 주요 음성 클로닝 옵션을 활용할 수 있다. 말하기 샘플을 업로드함으로써 맞춤형 목소리 클론을 생성할 수 있다. 이 합성된 목소리는 그 후 원하는 대로 조작하여 아무 말이나 하도록 만들 수 있다. 최신 업데이트는 이런 AI로 생성된 목소리가 스웨덴어, 아랍어, 말레이어 등의 언어를 유창하게 말할 수 있게 되었다는 것을 의미한다.
이런 돌파구가 실질적인 응용 프로그램, 즉 오디오북을 낭독하는 것을 가능하게 하지만, 오용 가능성에 대한 우려도 제기한다. 이 기술은 딥페이크 오디오를 가능하게 해 개인을 사기와 오보 캠페인에 취약하게 만든다. ElevenLabs는 이런 윤리적 우려를 인정하면서, 오용을 방지하기 위한 보호 조치를 구현했다고 강조한다.
ElevenLabs는 음성 클로닝 기술에서 진전을 이루는 유일한 회사가 아니다. 메타와 같은 대형 기술 회사들도 강력한 생성 AI를 개발했지만, 완전한 투명성과 오용 가능성에 대한 우려 때문에 비판을 받고 있다. 메타의 AI 음성 합성 도구인 Voicebox는 이런 우려 때문에 공개적으로 릴리스되지 않았다.
AI 음성 클로닝 분야에서의 빠른 진전은 부인할 수 없지만, 이 기술의 윤리적 구현은 여전히 중대한 도전이다. 혁신적인 의사소통 방법과 오보에 대한 보호 조치 간의 균형을 찾는 것이 중요하다. 내용에 대한 언어 장벽을 없애는 것은 ElevenLabs와 이 분야에서 일하는 다른 조직들에게 야심 찬 목표라 할 수 있다.
[ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]