AI 음성 합성 기술, 상반된 반응 낳다...왜?

황원지 / 2021-03-04 18:33:34

클립아트코리아

인공지능(AI) 음성 합성 기술에 대해서 알고 있는가? 음성 합성(TTS)이란 원하는 텍스트를 입력하면 사람의 목소리로 출력해 주는 기술을 뜻한다. 음성합성 기술은 생각보다 아주 가까이에서 사용되고 있다. 애플의 시리, 삼성의 빅스비 등을 대표적인 예시로 언급할 수 있다.

또 다른 예시로 지난해 네이버는 배우 유인나의 목소리를 이용하여 N 보이스를 만든 네이버 오디오클립도 있다. 이처럼 AI로 제작된 오디오북은 하루 만에 완역본을 제작할 수 있을 정도로 경제성을 갖추고 있다.

[네이버 오디오클립]

AI 음성 합성 기술에 대해 대중은 상반된 반응을 보인다. 우선, AI 음성 합성 기술이 긍정적으로 활용된 사례는 JTBC 다큐 플러스 ‘마음을 전하는 AI 기술: 나의 목소리를 찾아서’를 통해 찾아볼 수 있다.

KT의 AI 음성 합성 기술을 활용하여 농인의 목소리를 찾아주는 활동으로 가족의 목소리를 녹음하고 구강 구조를 분석해 목소리를 선물했다. 이와 같이 청각장애인을 위한 음성 서비스, 아이들을 위한 교육용 음성 녹음 등 AI 음성 합성 기술의 활용 분야가 매우 다양하다.

반대로 일각에서는 AI 음성 합성을 연예인이나 유명인 등의 원하는 목소리로 음성을 만들어 악의적인 용도로 유포할 수 있다는 부정적인 의견도 존재한다. 이 때문에 딥페이크의 음성 버전 딥보이스에 대한 우려가 제기되고 있다. 딥보이스로 합성한 음성은 실제 일반인이 들었을 때 구분을 못 할 정도이며, 유명인뿐만 아니라 일반인도 이러한 피해를 받을 수 있기에 더욱 걱정을 사고 있다.

이를 방지하기 위해 AI 음성 합성 기술이 발달할수록 딥보이스와 AI 합성 기술을 구분할 수 있는 기술도 발달해야 한다.

이와 관련, 한 IT업계 관계자는 “AI 음성 합성 기술에 사람에게는 들리지 않지만 기계에는 들리는 주파수 같은 것을 도입해, 실제 사람 목소리와 기계 목소리를 구분하도록 하는 방법이 가능하다"라고 전했다.

[ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

황원지

IT/Tech, 금융, 산업, 정치, 생활문화, 부동산, 모빌리티

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0