4차 산업 혁명 시대에 진입하면서 다양한 기술의 발전이 이루어지고 있다. 그중 인공지능(AI)을 활용한 기술은 우리 생활 곳곳에서 찾아볼 수 있다. 아마도 지금 당장 가장 쉽게 접할 수 있는 AI 서비스 중 하나는 구글 번역, 파파고 등 기계 번역일 것이다. 이에, 기계 번역의 역사와 원리, 기계 번역의 미래에 대해서 살펴보고자 한다.

기계 번역의 역사
기계 번역은 1954년, 조지타운-IBM 실험이라는 이름으로 최초로 등장했다. 초창기 기계 번역은 문장을 분석하는 것으로 시작했다. 이 시기의 번역은 한 단어의 여러 의미 중에서 대체하기 가장 적합한 단어를 선택해서 교체하는 통계적 기계 번역의 모습을 보였다.
하지만, 최근의 기계 번역은 단어 단위로 문장을 나누는 대신 전체 문장을 한 번에 번역한다. 이를 기계 학습을 통해 인간 뇌 신경망을 모방한 AI 기반의 신경망 기계 번역이라고 칭하며, 과거보다 정확성이 더 높으면서 다양한 표현을 번역한다.
기계 번역의 원리
컴퓨터는 빅데이터와 딥러닝을 통해 방대한 양의 정보를 학습하고, 패턴을 분석하여 이를 토대로 나름의 규칙을 만든다. 신경망 기계 번역도 이러한 방식을 통해 실수를 기억하고, 같은 작업을 반복하면서 계속해서 발전한다.
AI 기반의 신경망 기계 번역은 인간이 생각하는 방식처럼 신경망을 구축하고 있다. 신경망 기계 번역의 특징 중 하나는 문장을 단어로 쪼개어 분석하지 않고 문장 자체를 한 번에 번역한다는 점이다.
이를 시행하기 위해 컴퓨터는 사람의 언어를 기계가 이해할 수 있는 언어로 만들고자 문장을 벡터로 변환한다. 벡터는 숫자열을 지칭하는 말로, 문장을 벡터로 변환하면 문장의 구성 요소들은 각각의 숫자로 변환되어 하나의 숫자 집합을 이루게 된다. 이후 번역기는 원칙에 따라 학습 데이터를 통해 배운 가중치를 더해 번역을 수행하며, 그 결과는 상당히 정교하다.
국내사용자 친화적인 파파고의 기계 번역
현재 기계 번역은 품사, 격식체 등 인간의 다양한 언어 사용을 반영해서 인간의 언어와 상당히 비슷한 수준으로 번역하고 있다. 또한, 사진 번역 기술까지 등장하는 등 번역 서비스도 계속해서 진화하고 있다.
최근 기계 번역은 사용자 수정 기능을 바탕으로 유행어를 번역한다. 특히 파파고는 국내에서만 쓰는 표현이나 방언을 구글보다 효과적으로 번역하고 있다. 고유명사적 특성을 가진 단어는 의미가 하나로 고정되어 있으므로 오히려 번역이 쉽다.
기계 번역의 미래
컴퓨터는 AI 기반 신경망 기계 번역을 통해서 기존의 번역 기술에서 2배가량 향상된 번역 결과를 보여준다. 그러나 여전히 한계도 존재한다. AI 기계 번역의 대표적인 한계는 성별 편향성 문제이다. 이는 AI 신경망 기계 번역을 위해 사용된 데이터 자체에 성별 편향된 정보가 존재하기 때문에 발생한 문제로 보인다.
[ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]