구글 번역. 기존의 통계 번역과 새로운 신경망 번역의 차이점과 뒷 이야기들

구글 번역앱을 실행해보니 많이 변했더군요. 특히 사진 아이콘이 있길래 눌러봤습니다. 뭔가 촬영하면 번역해 주나 봅니다. 지하철역에서 방금 구매한 해리포터 영문판 소설 뒷면을 촬영하니 텍스트를 알아서 인식하더니 터치 한 번에 번역을 해줍니다. 우와~~~~~ 탄성이 절로 나오네요.

구글 번역은 어순이 엉망으로 나와서 잘 쓰지 않습니다. 특히, 영문 번역은 엉망진창이죠. 이런 구글 번역이 변했습니다. 최근 기존의 통계 번역을 지나서 신경망 번역으로 변신을 했습니다. 그 변화의 이유와 어떻게 변했는지 그리고 꿀팁을 가득 담은 강의가 지난 주 금요일 저녁에 있었습니다.

#구글과 IT동아가 함께한 구글 번역 설명회?

불타는 금요일이었지만 IT동아와 구글이 함께 준비한 <인공지능으로 더 똑똑해진 구글 번역 100% 활용하기> 강연이 구글코리아 본사가 있는 강남 파이낸스센터 21층 집현전에서 있었습니다. 총 2시간 동안의 강연은 큰 인기를 끌었습니다.

ONOFFMIX를 통해서 신청을 했는데 정말 양질의 강의였습니다. IT동아 강용일 기자님이 친절하고 자세히 잘 설명해주셨습니다. 구글 코리아 집현전은 몇번 와봤는데 올때마다 좋아요. 냉장고에 있는 음료수 맘대로 먹을 수 있고 커피도 내려 먹을 수 있습니다.

이런 고급진 강의를 무료로 제공해주는 것에 감사하다는 말씀을 드려야 할 것 같네요. 한편으로는 구글이 자사의 서비스를 무료 강의를 통해서 널리 멀리 퍼지게하는 것도 있습니다. 구글은 자사의 서비스를 특별히 홍보를 하지 않는 회사로도 유명하죠. 이런 식으로 강의를 통해서 알아서 유저들이 소개하는 것들이 더 많습니다.

한국에서는 구글 서비스 중에 유명한 가장 유명한 서비스는 구글 검색, 지메일, 그리고 최근에 큰 인기를 끌고 있고 최고의 서비스라고 생각하는 구글포토가 있습니다. 그러나 구글 번역을 솔직히 인기 서비스는 아니였습니다. 일본어 번역은 꽤 잘하는데 영문 번역은 엉망이었습니다.

강의 내용이 길어서 잘라서 소개하겠습니다.

#구글 번역의 역사

구글 번역은 2006년에 시작되었습니다. 구글의 시작과 거의 같다고 볼 수 있습니다. 구글 번역은 2007년 한국어 서비스를 시작합니다. 직접 구글이 서비스한 것은 아니고 다른 회사를 통해서 번역 서비스가 지원되었습니다. 이후 지금은 103개 언어를 지원합니다. 전 세계에 3,000개의 언어가 있는데 이중 99%가 사용하는 103개 언어만 지원합니다.

매일 10억 건의 번역 요청이 일어나고 있고 월 사용자는 5억 명입니다. 번역 서비스를 사용하는 전체 사용자의 92%가 미국외 지역에서 발생하고 있습니다. 그럴 수 밖에 없죠. 인터넷 콘텐츠의 50%가 영어입니다. 그러나 영어를 모국어로 쓴는 나라는 많지 않습니다. 공용어라는 이유로 많은 사람들이 영어를 배우고 있습니다. 이중 한국도 한 나라입니다.

문제는 한국은 실용 영어가 아닌 학원 영어라서 돈은 돈대로 쓰고 영어 잘 하는 사람은 많지 않습니다. 그렇다고 더 많은 돈을 투입한다고 한국이 영어 강국이 될 리도 없습니다. 차라리 구글 신이 내려다 준 구글 번역기에 기대는 것이 더 낫습니다. 현재 구글 번역은 실시간 통역까지 할 수 있습니다. 다만, 관광 영어나 일상 생활에서 사용하는 간단한 영어 정도만 가능합니다.

#기존 구글 번역은 왜 번역 품질이 좋지 않았나?

그러나 구글 번역도 문제가 많습니다. 라틴 계열 번역은 우수하지만 한국어 번역은 엉망이었습니다. 저는 그게 어순 때문인줄 알았습니다. 영어는 주어, 동사, 목적어라는 어순의 형식이 있습니다. 그러나 한글은 어순이 있긴 하지만 지키지 않아도 이해가 갑니다. 그게 가능한 게 조사가 엄청나게 발달해서 주어가 맨 뒤에 나와도 이게 주어인 줄 바로 알 수 있습니다.

그런데 강연에서 그렇게 생각하는 분들이 많지만 그게 아니라고 합니다.
어순은 한국과 일본어가 비슷합니다. 그런데 영어를 일본어로 일본어를 영어로 번역하면 번역 품질이 무척 좋습니다. 그래서 우리가 구글 번역에서 영어를 한글로 번역할 때 영어와 일본어로 1차 번역하고 일본어를 한국어로 번역하는 2차 번역의 꼼수를 사용했습니다.

구글 번역 품질이 한국어에서 떨어지는 이유는 번역 커뮤니티의 활성화 여부 때문입니다. 일본은 매뉴얼의 나라입니다. 일본어 위키대백과 가보면 엄청나게 잘 정리해 놓은 것을 알 수 있습니다. 누가 시키지도 돈을 주는 것도 아닌데 자룔르 차곡차곡 잘 정리해 놓았습니다. 한국도 나무위키가 덕스럽지만 잘 정리하고 있긴 하지만 일본 못 따라갑니다.

구글 번역을 사용하면 수정 제안하기라는 메뉴가 있습니다. 번역이 매끄럽지 못하면 수정 제안을 해서 좀 더 매끄럽게 번역을 할 수 있습니다. 이 수정 제안하기를 일본인들은 엄청나게 많이 제안했고 번역 커뮤니티가 활성화 되어서 꾸준하게 번역 품질을 개선하는데 큰 도움을 줬습니다. 반면, 한국은 거의 없다고 하네요. 이런 차이가 구글 번역의 품질의 차이로 나왔습니다.

#통계 번역과 신경망 번역의 차이

또한, 기존 구글 번역은 통계 번역이었습니다. 번역기 발달 순서를 보면 가장 기초적인 단계가 단어장을 펴 놓고 단어 하나하나를 번역하는 방식이죠. 1990년대 초에 개발된 번역기들이 이 단계였습니다. 그 다음 단계는 어절, 구 단위로 좀 더 발전한 기술로 1988년 IBM이 통계 번역을 개발합니다.

구글의 이전 번역 방식이 통계 번역이고 한컴의 지니톡이 이 통계 번역기입니다.
그리고 최신 방식이 신경망 방식입니다. 신경망 방식은 어절, 구 단위가 아닌 문장 단위로 통 번역을 합니다. 따라서 번역 오류가 더 적습니다. 이 신경망 번역을 통해서 번역 오류가 55~80% 감소했습니다.

신경망 방식은 구글 번역 그리고 네이버의 파파고가 있습니다. 둘의 차이점은 구글은 단어 숫자에 상관없이 무제한 번역이 가능한데 비해서 파파고는 200자 까지만 번역이 가능합니다. 이 차이는 네트워크 퍼포먼스 차이입니다. 즉, 클라우딩 서비스와 컴퓨팅 파워가 구글이 훨씬 좋다는 것이죠. 네이버도 언젠가는 무제한 번역을 할 수 있게 되겠죠

그럼 얼마나 변했는지 예를 들어 들이죠

위키피디아에서 구글 포토로 영문 검색한 후 한글로 번역했습니다.

기존 구글 번역(통계 번역)

구글 사진 A는 사진 및 비디오 공유 가 개발 및 스토리지 서비스 구글 .그것은 월 2015 년 발표으로부터 방사 된 Google+에 회사의, 소셜 네트워크 . ^[3]

5 월 2016 년 1 년 출시 후, 구글 사진 만 200 매월 활성 적어도 13.7 업로드 한 사용자했다 페타 바이트 조 2 위에 레이블은 (해당되는 셀카 24 억 달러) 적용하는 데에, 사진 / 비디오를, 1.6을 억 애니메이션, 콜라주 효과는 사용자의 콘텐츠를 기반으로 작성되었다

새로운 구글 번역 (신경망 번역)

Google 포토는 Google에서 개발 한 사진 및 동영상 공유 및 저장 서비스입니다. 2015 년 5 월에 발표되었으며 회사의 소셜 네트워크 인 Google+에서 분사되었습니다. [3] 출시 후 1 년 후인 2016 년 5 월 Google 포토에는 월 2 억 명이 넘는 사진 / 동영상을 업로드 한 사용자가 2 억 명이 넘습니다 (셀카가 된 사람들 중 240 억 명). 1.6 10 억 개의 애니메이션, 콜라주 및 효과가 사용자 컨텐트를 기반으로 만들어졌습니다.

크게 달라진 것을 바로 느낄 수 있습니다. 기존 구글 번역은 어순 따위는 집어쳐! 내 맘대로 할거야 식이었다면 신경망 번역은 어순이 아주 참합니다. 어순이 맞으니 쉽게 읽을 수 있게 되었네요

이 새로운 구글 번역은 현재 구글 번역 홈페이지, 구글 번역 앱에서만 사용할 수 있습니다. 아쉽게도 가장 흔하고 많이 쓰는 구글 크롬 웹브라우저는 아직까지는 기존의 통계 번역기를 이용하고 있습니다. 구글 코리아 측에서는 곧 조만간 구글 크롬에서도 사용할 수 있을 것이라고 전하고 있습니다.

그럼에도 미리 쓰고 싶다? 그럼 구글 크롬 웹스토에 가서 'Google 번역' 앱을 크롬에 추가 해서 사용할 수 있습니다. 대신 번역하고자 하는 문장을 긁으면 번역 아이콘이 툴팁처럼 뜨면 그걸 이용하던가 아니면 크롬 웹 브라우저 오른쪽 상단에 구글 번역 앱을 실행해서 사용할 수 있습니다.

#한국어를 지원한 이유는 일본어 덕분

구글의 새로운 번역은 프랑스, 독일어, 스페인어, 포르투칼어,중국어, 일본어, 터키어 그리고 한국어를 지원합니다. 총 8개 언어를 지원합니다. 구글은 사용자가 많은 언어부터 순차적으로 지원할 예정입니다. 그런데 한국어는 사용자가 많은 언어는 아닙니다. 남북한 인구와 해외교포 포함해도 1억이 되지 않습니다. 그럼에도 추가된 이유는 일본어 덕분입니다.

위에서도 말했지만 구글은 영어와 일본어 사이에 번역 정확도가 무척 높습니다. 또한, 일본은 인구가 1억이 넘는 나라죠. 그래서 일본어를 지원하려고 찾아보니 일본어와 한국어 그리고 터키어가 어순이 비슷합니다. 같은 계열의 언어를 쓰는 이 3개의 나라를 묶어보니 사용자가 2억명이 넘습니다. 이에 구글은 2억명을 위해서 일본어 번역을 지원했고 어순이 비슷한 언어인 한국어와 터키어도 함께 지원했습니다.

구글의 새로운 신경망 번역은 중간자 언어가 필요 없는 번역 서비스이기도 합니다. 중간자 언어란 많은 사람이 사용하지 않는 두 나라의 언어를 번역을 하려고 할 때 통계 기반이 되는 번역 자료가 없기 때문에 번역이 쉽지 않습니다. 이때 영어를 중간자 언어로 엮어서 번역을 합니다.

그러나 구글의 신경망 번역은 중간자 언어를 거치지 않고 다이렉트로 번역이 가능합니다. 여기에 어순이 비슷한 터키, 일본어, 한국어는 좀 더 빠르게 번역이 가능하겠죠. 뭔 이런 복잡한 소리냐? 이것만 알면 됩니다. 구글 번역의 근간이 되는 번역 빅데이터는 일본과 영어 사이의 빅데이터가 많이 있는데 이걸 기반으로 한국어 번역 품질도 좋아진다는 것입니다.

즉, 일본인들이 번역 품질 참여를 많이 할수록 한국 번역 품질도 좋아집니다. 따라서 우리는 손 안대고 코풀 수 있습니다. 신경망 번역이 딥 러닝 기술이 들어가 있어서 스스로 학습하는 것도 있지만 인간의 도움을 많이 받을수록 더 빨리 진화를 합니다. 그 도움을 일본인들이 많이 해주고 있습니다.

그럼 다음에는 좀 더 심화 내용으로 다시 적어보겠습니다

구글 번역. 기존의 통계 번역과 새로운 신경망 번역의 차이점과 뒷 이야기들

관련글

티스토리툴바