인공지능(AI) 음성 합성 기술에 대해서 알고 있는가? 음성 합성(TTS)이란 원하는 텍스트를 입력하면 사람의 목소리로 출력해 주는 기술을 뜻한다. 음성합성 기술은 생각보다 아주 가까이에서 사용되고 있다. 애플의 시리, 삼성의 빅스비 등을 대표적인 예시로 언급할 수 있다.
또 다른 예시로 지난해 네이버는 배우 유인나의 목소리를 이용하여 N 보이스를 만든 네이버 오디오클립도 있다. 이처럼 AI로 제작된 오디오북은 하루 만에 완역본을 제작할 수 있을 정도로 경제성을 갖추고 있다.
AI 음성 합성 기술에 대해 대중은 상반된 반응을 보인다. 우선, AI 음성 합성 기술이 긍정적으로 활용된 사례는 JTBC 다큐 플러스 ‘마음을 전하는 AI 기술: 나의 목소리를 찾아서’를 통해 찾아볼 수 있다.
KT의 AI 음성 합성 기술을 활용하여 농인의 목소리를 찾아주는 활동으로 가족의 목소리를 녹음하고 구강 구조를 분석해 목소리를 선물했다. 이와 같이 청각장애인을 위한 음성 서비스, 아이들을 위한 교육용 음성 녹음 등 AI 음성 합성 기술의 활용 분야가 매우 다양하다.
반대로 일각에서는 AI 음성 합성을 연예인이나 유명인 등의 원하는 목소리로 음성을 만들어 악의적인 용도로 유포할 수 있다는 부정적인 의견도 존재한다. 이 때문에 딥페이크의 음성 버전 딥보이스에 대한 우려가 제기되고 있다. 딥보이스로 합성한 음성은 실제 일반인이 들었을 때 구분을 못 할 정도이며, 유명인뿐만 아니라 일반인도 이러한 피해를 받을 수 있기에 더욱 걱정을 사고 있다.
이를 방지하기 위해 AI 음성 합성 기술이 발달할수록 딥보이스와 AI 합성 기술을 구분할 수 있는 기술도 발달해야 한다.
이와 관련, 한 IT업계 관계자는 “AI 음성 합성 기술에 사람에게는 들리지 않지만 기계에는 들리는 주파수 같은 것을 도입해, 실제 사람 목소리와 기계 목소리를 구분하도록 하는 방법이 가능하다"라고 전했다.
[ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]