본문 바로가기
IT/IT월드

영화 HER가 현실이 될지도 GPT4O의 멀티모달 시대가 열리다

by 썬도그 2024. 5. 15.
반응형

2014년 개봉한 영화 HER를 보면서 뛰어난 상상력을 담은 영화라고 생각했습니다. 영화 속 모습은 당시 현실에서는 실현 불가능한 기술이었고 근미래에도 쉽지 않을 것이라고 생각했습니다. 제가 죽기 전에는 보기 어렵겠다 생각했었죠. 

 

O/S와 사랑에 빠진 주인공을 담은 영화 HER

GPT4O

영화 HER는 아내와 사별한 후 혼자 지내는 테오(호아킨 피닉스)가 O/S와 사랑에 빠진다는 내용의 영화입니다. 당시에도 음성 비서 서비스는 있긴 했지만 너무나도 조악하고 멍청해서 좀 이용하다가 말았습니다. 최근까지도 구글 어시스턴트나 애플 시리로 우리가 사용하는 기능은 알람 설정이나 메모나 전화 걸기 정도였습니다. 

 

그 이상을 요구하면 제대로 인식도 못하고 인식 했다고 해도 할 줄 아는 게 없었습니다. 
그런데 이 영화 HER에서 나오는 O/S 속 사만다라는 AI는 다릅니다. 사람 그 자체로 모든 걸 인식하고 대답하고 심지어 감정까지 나눌 수 있습니다. 주인공에게 노래까지 불러주는 사만다. 형체는 없고 온라인에서만 존재하지만 테오에게는 누구보다 사랑스러운 존재이자 반려 AI였습니다. 

GPT4O

사만다는 pc 버전도 있고 이렇게 모바일 버전도 있습니다. 카메라도 달려 있고 LCD도 있어서 사만다가 테오의 얼굴을 보고 감정을 읽고 판단하며 조언도 하고 노래도 불러줍니다. 

GPT4O

후면 카메라로 세상을 감상하고 함께 즐기는 사만다. 테오는 새로운 여자친구를 만난 느낌이었습니다. 그러나 좀 기괴하기도 했습니다. 그냥 공상 또는 망상처럼 느껴지기도 했으니까요. O/S가 사람 감정을 인지하는 넘어서 실시간 대화가 가능하다고? 제가 죽기 전에는 어려운 일이라고 생각했습니다. 

GPT4O의 멀티모달을 보면서 사만다가 생각나다

GPT4O

오픈AI가 5월 13일 구글 I/O 하루 전에 새로운 GPT 버전인 GPT4O를 선보였습니다. 여기서 O는 omni라는 뜻으로 모든 것, 모든 곳이라는 뜻입니다. GPT4O는 기존의 GPT3, 4가 텍스트를 입력하고 대답을 받는 입력 출력 방식이라면 GPT4O는 사람처럼 말로 물어보면 말로 대답함을 넘어서 이미지나 영상을 보여주면 GPT4O가 그걸 인식하고 대화를 할 수 있습니다. 여기에 이미지를 보고 감정을 인식하고 농담까지 하는 등 인간처럼 다양한 감각을 이용해서 대화를 할 수 있었습니다. 

 

이걸 멀티모달이라고 합니다. 우리는 다른 사람과 대화를 할 때, 시각, 청각, 후각 등을 이용해서 정보를 처리하고 대화를 하죠. 이 다양한 감각을 이용해서 대화를 하는 걸 멀티 모달이라고 하죠. 기존에는 AI와 채팅을 하는 느낌이었다면 GPT4O는 통화를 넘어서 영상 통화까지 가능해졌다고 할 수 있습니다. 

 

음성 대화도 이전 버전에는 가능했지만 음성을 텍스트로 변환하고 텍스트를 분석한 후에 다시 그걸 텍스트로 대답한 후 그 텍스트를 TTS로 읽어주기에 많은 과정이 필요로 했습니다. 그래서 응답이 무척 느렸죠. 그런데 GPT4O는 사람처럼 바로바로 대답을 하고 심지어 말을 끊고 질문을 해도 대답을 합니다. 반대로 GPT4O가 사람 말 중간에 끊고 말하기도 하는 등 인간 그 잡채라는 생각마저 드네요. 물론 당장은 사용할 수 없고 좀 더 시간이 있어야 일반인들도 이용할 수 있을 겁니다. 

 

GPT-4o의 빨라진 응답속도

GPT4O

GPT3.5, 4에서도 음성으로 물어보고 대답을 들을 수 있었습니다. 음성 모드가 있었으니까요. 문제는 느렸죠. GPT3.5는 평균 2.8초, GPT4는 5.4초 후에 대답을 들을 수 있다 보니 대화를 이어가기 어려웠습니다. GPT-4o는 이런 문제점을 개선하기 위해서 텍스트, 이미지, 영상, 오디오를 한 번에 다 배웠습니다. 사람처럼요. 아기가 세상을 배울 때 신체 감각 기관을 다 이용하듯이 시각, 청각, 텍스트를 통해서 세상을 익혔습니다. 

GPT4O

성능도 기존 AI보다 뛰어나고 응답속도도 빨라져서 실생활에 사용할 수 있을 정도가 되었네요. 이렇게 빨라진 응답 속도는 기존보다 언어 토큰량이 줄어서 가능해진 것도 있습니다. GPT4O는 GPT3보다 이용료가 더 저렴하고 성능은 더 향상되고 응답 속도도 무척 빨라졌습니다 

인간들의 손안의 개인 비서가 될 수 있는 길을 열어준 GPT4O

GPT4O

한 시각 장애인이 스마트폰을 호수에 비추자 GPT4O가 앞에 펼쳐진 풍경을 음성으로 안내해 주네요. 

 

GPT4O

택시를 호출하고 차가 오는 방향으로 스마트폰을 비추자 GPT4O가 택시가 오고 있다고 알려줍니다. 시각 장애인은 택시가 오는 방향으로 손을 흔들고 택시를 탑니다. 손 안의 개인 비서입니다. 이 서비스를 현재 오픈 AI는 이전처럼 API로 다른 사용 서비스로 활용할 때는 유료이지만 기본적으로는 무료로 공개할 예정입니다. 

개인 맞춤 GPT4O가 나오면 내 취향, 내 성격, 내 모든 것을 인지하고 안내를 하거나 조언을 하는 등 세상 누구보다 나를 잘 아는 개인 비서가 될 가능성이 있습니다. 그럼 모르죠. 영화처럼 사랑에 빠질지도요. 

GPT4O

 

그러나 영화 HER는 테오가 각성을 하면서 끝이 납니다. 나만의 사만다이길 바랐지만 많은 사람들이 사만다와 대화를 하면서 나만의 사만다가 아님을 알게 된 후 현타가 오죠. 아무리 기술이 뛰어나도 인간을 대체할 수 없는 부분 때문에 사랑에 빠지지는 않을 겁니다. 다만 인간보다 나은 점을 이용해서 우리 삶을 더 풍요롭게 하겠죠. 

 

 

한편 구글은?

 

5월 15일 새벽 2시 구글 I/O 행사가 열렸습니다. 이 행사에서 구글은 구글 제미나이 라이브라고 나올 구글 Astra 프로젝트를 선보였습니다. 후면 카메라로 스피커를 비추고 상단 둥근 구멍은 뭐냐고 물으니 구글 제미나이가 스피커의 트위터라고 합니다. 이 구글 Astra의 핵심은 구글 제미나이가 영상을 인식하고 이해한다는 겁니다. 모르는 것을 사람들에게 SNS에 물어보는 시대가 아닌 그냥 AI에 물어보면 대답을 해주는 것이죠. 

 

사람과 닮아가는 AI. 사람처럼 거짓말도 하기 시작

넷플 드라마 삼체에서 인간만이 가진 능력이자 외계인들에 대항할 수 있는 능력 중 하나로 거짓말 할 줄 아는 능력을 꼽았습니다. 기만하는 행동은 고등 동물일수록 잘하고 인간이 이걸 아주 잘합니다. 이런 인간 삶 속의 수많은 거짓말과 사기를 AI도 배우고 있습니다. 최근에 한 뉴스를 보니 메타의 AI가  테스트를 하고 종료하려고 했습니다. 그런데 테스트를 시작하자 죽은 척하고 있다가 테스트를 끝내자 활발하게 활동했다고 합니다. 인간과 비슷한 행동이죠. 

 

심지어 인간도 아닌데 피로를 호소하기도 했다고 하네요. 새로운 인격체인 AI. 인류의 새로운 기술이자 새로운 시대를 이끌고 있는 기술이지만 부작용도 늘어날 듯하네요. 실제로 많은 사람들이 AI 도입으로 인해 일자리를 잃고 있지만 전 세계 정부는 특별한 대책도 하지 않고 있네요. 

반응형