페이스북, 영어 거치지 않는 AI번역 모델 공개

남혁우 기자 입력 2020. 10. 20. 11:16
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

영어를 거치지 않고 100여 개 언어를 직접 번역할 수 있는 오픈소스 인공지능 번역모델(MMT)이 공개됐다.

기존 번역 모델은 한국어, 중국어 프랑스어 등 영어가 아닌 언어 간에 번역을 할 때도 중개언어인 영어로 한번 번역을 거처야 했다.

더불어 전 세계 7천 개 이상의 언어 쌍 간을 번역할 수 있는 모델을 구축할 계획이라고 추후 계획을 소개했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

영어 아닌 언어간 직접 비교로 번역 정확성 높여

(지디넷코리아=남혁우 기자)영어를 거치지 않고 100여 개 언어를 직접 번역할 수 있는 오픈소스 인공지능 번역모델(MMT)이 공개됐다.

미국 지디넷은 페이스북이 AI 언어 모델 M2M-100를 깃허브를 통해 공개했다고 19일(현지시간) 보도했다.

M2M-100은 중개 언어로 영어를 사용하지 않고 각 언어를 직접 비교해 번역하는 것이 특징이다.

페이스북의 AI 다국어 번역 모델 'M2M-100'(이미지=페이스북)

기존 번역 모델은 한국어, 중국어 프랑스어 등 영어가 아닌 언어 간에 번역을 할 때도 중개언어인 영어로 한번 번역을 거처야 했다. 기준이 되는 언어가 있는 만큼 학습 및 처리속도가 빠르지만 두 언어 고유의 특성을 살리기 어려운 단점이 있었다.

신규 언어 모델은 영어를 거치지 않는 직접 비교 번역을 통해 번역의 정확성을 높였다. 페이스북에 다르면 M2M-100은 기존 방식에 비해 번역기 품질을 평가하는 ‘BLEU 평가에서 10포인트 이상 높은 점수를 얻었다.

해당 방식을 구현하기 위해 페이스북 측은 뉴스피드에서 매일 발생하는 200억 건의 번역을 AI모델에 학습시켰다. 이를 위해 100개 언어로 구성된 75억 개의 MMT 데이터셋을 구축하고 각 언어별 연관성이 높은 단어간 데이터쌍을 구축했다.

자주 의사소통하고 유사성이 높은 언어 간에 번역 품질을 높이기 위해 분류 및 지리, 문화적 유사성에 따라 14개 계열로 그룹화하는 브리지 마이닝 작업을 거쳤다. 반면 싱할라어와 자바어 간 번역 등 통계적으로 번역 수요가 거의 없는 데이터쌍은 작업을 최소화했다.

페이스북은 다국어 번역 모델은 유사한 언어 간에 정보를 공유하므로 자료가 부족한 언어의 번역에 도움을 줄 수 있다고 밝혔다. 충분한 학습을 거치면 AI 모델이 이전에 학습하지 않은 언어로 번역할 수 있다는 것이다. 

더불어 전 세계 7천 개 이상의 언어 쌍 간을 번역할 수 있는 모델을 구축할 계획이라고 추후 계획을 소개했다.

페이스북 파리 AI연구소의 안젤라 팬 데이터 과학자는 “수년 동안 AI 연구원은 다양한 작업에서 모든 언어를 이해할 수 있는 단일 범용 모델을 구축하기 위해 노력해 왔다”며 "모든 언어, 방언 및 양식을 지원하는 단일 모델은 많은 사람에게 더 나은 서비스를 제공하고 새로운 경험을 동등하게 만드는 데 도움이 될 것"이라고 말했다.

남혁우 기자(firstblood@zdnet.co.kr)

Copyright © 지디넷코리아. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?