본문 바로가기
IT/구글

복잡한 문장도 이미지도 이해할 수 있는 구글 알고리즘 MUM

by 썬도그 2021. 5. 24.
반응형

PC 언어 번역기는 30년 전에도 있었습니다. 인터넷 초창기인 90년대 후반에도 조악하지만 영어 번역기는 있었습니다. 다만 어순이 다른 영어 번역보다는 어순이 같고 단어도 비슷한 일본어 번역률은 아주 높았지만 영어 번역기는 너무 조악해서 번역기를 돌리기보다는 다음 사전의 툴팁 기능을 이용해서 단어를 해석해서 번역하는 게 더 나았습니다. 

그러다 2016년 구글이 문장 전체를 통번역하는 문맥 번역인 GNMT를 도입하면서 대변혁이 일어납니다. 요즘 구글 번역기로 영문 페이지 통으로 번역해 보세요. 너무나도 자연스럽게 잘 번역합니다. 기계학습 기술을 통해서 나날이 번역 능력이 발전해 가고 있습니다. 물론 100% 만족스럽지는 못합니다. 

2016.10.01 - [IT/가젯/구글] - 문장 전체를 통번역하는 구글의 새로운 번역시스템 GNMT

이후 구글은 세상을 이해하는 알고리즘을 꾸준히 개선하고 있습니다. 
지난 5월 19일 구글 개발자 컨퍼런스인 구글 I/O 2021에서 구글은 새로운 알고리즘인 MUM(Multitask Unified Model)을 발표했습니다. 직역을 하면 다중 작업 통합 모델이라고 할 수 있습니다. 

 구글 알고리즘 MUM(Multitask Unified Model)이란?

우리는 모르는 것이 있으면 구글이나 네이버, 다음에 검색을 합니다. 이때 검색어를 잘 사용해야지 검색엔진이 알아듣습니다. 그래서 우리는 문장으로 검색을 하기도 합니다. 

"서울역에서 선유도 가는 방법"이나 "카메라가 고장나면 어떻게 해야 하나요?"같은 문장으로 질문을 하죠. 이런 문장형 질문을 하면 사람은 그 말을 알아듣고 잘 설명해 주지만 현재의 검색엔진은 이 문장형 질문에 대한 명확한 답을 내놓지는 못합니다. 우연히 질문과 똑같은 질문이 있는 글을 검색 결과에 내놓긴 하죠. 

이는 질문을 이해한 것이 아닌 질문과 동일한 질문을 찾아서 보여줄 뿐입니다. 아직도 검색엔진은 검색 사용자의 요구를 명확하게 이해하지 못하고 단순한 결과물만 내놓는 수준입니다. 뭐 네이버와 다음이 자연어 검색이다 뭐다 해서 선보이지만 확 와닿을 정도로 기술이 좋은 건 아닙니다. 

요즘 네이버나 다음이 하는 건 인간의 언어나 질문의 문맥 파악하는 것 보다는 오로지 내 주변의 맛집 소개만 열심히 하고 있습니다. 전 맛집 별 관심 없는데 네이버 지도나 네이버 검색하면 추천 맛집부터 튀어나오거나 검색 상단에 나와요. 사람 성향 파악도 못하는 걸 보면 여러모로 두 회사의 검색 기술력이나 방향은 뭔가 좀 많이 잘못된 느낌도 듭니다. 

구글은 이런 문제점을 개선하기 위해서 사람의 언어를 이해하고 문맥을 이해하는 MUM 알고리즘을 개발했습니다. MUM은 다중 작업 통합 모델의 약자이빈다. 기존의 자연어 처리 모델은 BERT였습니다. 이걸 바탕으로 언어 이해 작업에 뛰어난 신경망 구조 기술인 트랜스포머를 구축했습니다. 이 둘을 이용해서 75개의 다른 언어를 기계 학습을 시켰습니다. 

이를 통해서 MUM은 언어를 이해할 뿐 아니라 생성도 가능해졌습니다. 또한 이미지와 텍스트 전체의 정보를 이해할 수 있습니다. AI에게 강아지와 고양이 사진을 보여주면 처음에는 몰라요. 그러나 이게 강아지고 이게 고양이라고 강제 학습을 시키거나 스스로 배우게 하면 이미지도 판단할 수 있습니다. 이 기술을 검색 알고리즘에도 적용하나 보네요. 미래에는 동영상과 음성 정도도 사람처럼 이해할 수 있게 할 예정입니다. 

반응형

구체적인 예를 들어보죠. 후지산에 대해서 알고 싶으면 검색엔진에 후지산이라고 입력하면 후지산에 관련된 검색 결과가 나오죠. 이게 현재의 검색 수준입니다. 그러나 이렇게 검색을 해봅시다.

"이전에 아담스 산을 오른 적이 있지만 이번에는 후지산 등반을 준비하고 있어. 어떤 준비를 하면 좋을까?"라는 문장으로 검색엔진을 할 수 있을까요? 안 하죠. 엉뚱한 대답을 할 것이 뻔하기에 안 합니다. 그러나 구글의 MUM 검색 알고리즘은 이 말을 이해합니다. 

그래서 검색 결과와 아담스 산과 후지산을 비교해주고, 등산 준비에 필요한 교육과 적절한 장비를 구입할 것을 인지하고 구글 MUM 검색알고리즘은 그 결과를 찾습니다. 

1. 후지산과 아담스 산은 고도가 거의 같다
2. 후지산은 가을에 비가 많다
3. 방수 재킷이 필요하다 

등의 정보를 제공합니다. 또한 MUM은 후지산 정보는 일본어로 된 정보가 많기에 일본어를 번역해서 그 결과물까지 보여줍니다. 이게 가능한 이유는 구글은 세계 최고의 번역 기술이 있기 때문입니다. 요즘 유튜브에서 영상을 보다 보면 제목은 한글인데 유튜버 이름이 외국어로 되어 있어서 놀란 적이 있는데 이는 다 구글이 영문 제목을 한글로 번역해서 보여주기 때문입니다. 

여기에 이미지 정보도 이해할 수 있는 것이 MUM의 특징입니다. 등산화 사진을 찌고 이 등산화로 후지산을 오를 수 있을까?라고 물으면 구글 MUM은 등산화와 질문을 이해하고 "이 등산화라면 문제없이 등산할 수 있습니다"라고 답합니다. 

또한 권장하는 등산화를 리스트업한 블로그를 소개합니다. 어떻게 보면 사람과 대화하는 느낌까지 듭니다. 
구글은 현재에는 실험 단계이고 향후 몇 개월 후나 몇 년 이내에 이 기술을 실용화할 예정이라고 합니다. 구체적으로 어떻게 나올지 모르겠지만 카톡에 전문가에게 질문하는 것처럼 구글 MUM 알고리즘이 대답해 준다면 검색 시장에 큰 변화가 생길지도 모르겠네요. 

구글은 AI 카메라인 구글 렌즈에 100개 이상의 언어로 교육 콘텐츠에 연결하는 기능과 AR 콘텐츠를 검색 결과에 표시하는 계획도 세우고 있습니다. 

반응형