본문 바로가기
IT/구글

문장 전체를 통번역하는 구글의 새로운 번역시스템 GNMT

by 썬도그 2016. 10. 1.
반응형

한국에서 영어 교육은 영어를 배우기 위한 교육이라기 보다는 대학교나 기업 입사의 변별력 도구입니다. 이러니 '비정상회담'의 타일러도 못 푸는 문제를 수능 시험에 내죠. 맥락을 보고 보기 중 선택해라? 그게 영어입니까? 그건 영어라 아니라 그냥 대입용 수단으로서 영어죠.

많은 한국 사람들이 사회 나가서 영어를 거의 쓰지도 않을 거면서 영어를 필요 이상으로 배웁니다. 물론, 영어야 잘하면 좋죠. 그러나 모른다고 큰 문제가 되지도 않습니다. 영어를 필요로 하는 회사나 부서에서만 잘 쓰면 되죠. 그리고 한 10년 지나면 영어를 배울 필요가 없어질지도 모릅니다. 왜냐하면 구글신이 어마무시한 번역시스템을 개발해 놓을테니까요.



뭐 농담반 진담반이지만 이 번역 기술이 인공 지능을 만나서 크게 진화할 것으로 보입니다. 
구글 번역은 올해로 10년이 되었습니다. 현재 100개 이상의 언어 번역 서비스를 하고 있는 글로벌 번역 서비스입니다.  .

이 구글이 인공 지능(AI)를 활용한 GNMT(Google Neural Machine Translation)시스템을 발표했습니다. 구글은 이전까지 문구 기반 기계 번역인 PBMT라는 시스템을 사용했습니다. PBMT는 단어와 구문을 각각 번역해서 문장을 완성하는 방식이었다면 새로운 GNMT는 문장 전체를 번역 단위로 하는 방식입니다. 

이 새로운 번역 방식인 GNMT가 한국어 번역에는 더 중요합니다. 구글 번역을 써보시면 아시겠지만 문장 어순이 거의 동일한 일본어 번역률은 꽤 좋지만 어순이 다른 중국어나 영어는 이해하기 어려운 번역이 대부분이었습니다. 이는 구글이 영어를 한글로 번역할 때 단어와 구문 단위로 번역하고 어순에 맞지 않게 배열을 해 놓았기 때문입니다. 

한국어 같이 조사가 발달해서 어순이 헝클어져도 조사만 보고도 문장을 이해할 수 있는 언어와 영어처럼 어순이 딱 정해졍 있는 언어 사이의 번역은 무척 어려웠습니다. 그러나 GNMT라는 인공지능과 빅데이터를 이용한 새로운 번역 시스템으로 좀 더 번역률이 좋은 구글 번역을 만날 수 있을 듯 하네요. 


<인간, GNMT, PBNT 번역정확성 비교>

구글 연구원에 따르면 GNMT는 문장 전체를 하나의 번역 단위로 파악하기 때문에 번역 오류를 55~85%나 줄일 수 있게 되었다고 밝히고 있습니다. 또한, 여러 번 번역을 거듭하면 번역 정확도도 높지만 번역 속도도 빠른 것이 특징입니다. 

일부의 경우지만 번역 수준이 인간 번역 수준에 도달하기도 했다고 하네요. 위 그래프는 인간, GNMT, PBMT 번역 시스템을 비교한 그래프입니다. 프랑스에서 영어로 번역할 때는 인간과 GNMT가 거의 비슷한 경우도 있네요 한국어는 어떨지 궁금하네요. 아시겠지만 이 번역이라는 것이 정확도가 높으려면 샘플이 많이 저장되어 있어야 하는데 한국어는 프랑스나 영어나 중국어에 비해 쓰는 사람이 적어서 아직까지 정확도가 높지 않습니다. 



위 이미지는 '지식은 힘이다'라는 중국어 문장을 GNMT를 이용해서 영어로 번역하는 과정을 도식화한 이미지입니다. 
먼저 GNMT 네트워크는 중국어 단어를 벡터(1차원 배열) 목록에 인코딩합니다. 각 벡터를 GNMT가 다 인식한 후에 디코더가 영어 문장을 단어 단위로 생성하기 시작합니다. 생성하는 영어 단어와 원래 중국어 단어를 연결하는 선은 디코더 번역 단어를 생성할 때 중국어의 어떤 벡터에 가장 큰 영향을 받았는지를 보여줍니다. 

중국어와 영어의 어순이 비슷하기 때문에 순차적으로 나가는 듯하네요. 한국어는 어순이 다르기 때문에 더 복잡할 것입니다. 



위 이미지는 중국어를 기존의 PBMT와 새로운 GNMT 그리고 인간이 번역한 것을 보여주고 있습니다. 확실히 좀 더 나아졌네요. 하루에 중국에서 영어 번역은 웹버전과 모바일버전 합쳐서 무려 1,800만 건 정도입니다. 이들은 모두  GNMT가 처리하고 있습니다. 몇 개월 이내에 다른 언어도 이 새로운 번역 시스템을 선보일 예정이라고 하네요. 

그러나 한국어는 워낙 사용자도 적고 샘플량도 적고 시장도 크지 않아서 아주 느리게 적용될 것 같기도 합니다. 

출처 : https://research.googleblog.com/2016/09/a-neural-network-for-machine.html

반응형