본문 바로가기
IT/IT월드

삼성 인공지능 센터가 만든 1장의 사진으로 대화하는 영상을 만드는 기술

by 썬도그 2019. 5. 27.
반응형

요즘 인기 있는 전시회 중 하나가 인상파 화가나 유명한 고전 화가들의 그림을 대형 빔프로젝터를 이용해서 벽면 전체에 그림을 투사하는 미디어아트 전시회가 유행하고 있습니다. 그냥 그림만 크게 보여주면 재미가 없기에 그림이 영화처럼 살짝살짝 움직입니다. 동영상과 사진이 섞인 시네마토그래피 스타일의 이 영상 전시회가 인기를 끌고 있네요. 

이렇게 그림이나 사진 같이 정지된 이미지를 움직이게 하려면 CG를 이용해야 합니다. 한마디로 노가다로 만들어야 합니다. 그런데 사람이 말을 하는 장면은 그 인물의 사진 1장으로 만들 수 있는 기술이 나왔습니다. 

모스코바에 있는 삼성전자의 인공지능 센터와 러시아의 실리콘밸리인 스콜코보 과학기술 연구소의 엔지니어가 기존의 3D 모델링 기법을 사용하지 않고 AI 기술을 이용해서 1장의 인물 사진만 가지고 말하는 동영상을 만드는 기술을 만들었습니다. 초기 기술은 8장의 인물 사진을 바탕으로 눈썹, 코, 입, 턱라인의 변화를 추출한 후 새로운 말하는 동영상을 만들었습니다. 

즉 기존에는 A라는 사람이 말하는 여러 장의 사진 또는 동영상을 보고 그 사람의 말할 때의 특징을 추출한 후 A라는 사람이 말하지 않은 내용까지 말하게 하는 영상을 만들 수 있었습니다. 

그러나 삼성전자와 스콜코브 과학기술 연구소는 단 1장의 사진을 가지고도 말하는 동영상을 제작할 수 있습니다. 


물론, 1장이 아닌 좀 더 많은 사진이 있으면 좀 더 부드러운 대화 동영상을 제작할 수 있지만 죽은 사람의 사진이나 사진 1장만 있거나 고전 명화처럼 여러장의 이미지를 구할 수 없을 경우 유용하게 사용할 수 있습니다. 

이 기술은 메타 기계학습 단계에서 임베디드 네트워크, 생성 네트워크, 변별 네트워크 3개의 신경망을 대규모 비디오 데이터 세트에 놓고 훈련합니다.


여기에 적대 훈련을 시켜서 단 1장의 사진으로 움직이는 동영상을 만들 수 있습니다. 


지금은 세상에 없는 마릴린 먼로의 사진 1장으로 먼로가 다양한 표정으로 말을 하는 영상을 만들 수 있습니다. 


1장의 이미지로만 존재하는 유명 명화 속 주인공도 다양한 표정으로 말을 하는 영상을 만들 수 있습니다. 



모나리자가 화를 내고 짜증 내고 새초롬한 표정도 볼 수 있습니다. 동영상 제작자들에게는 큰 도움이 되는 기술이겠네요. 

반응형