삼성 인공지능 센터가 만든 1장의 사진으로 대화하는 영상을 만드는 기술

요즘 인기 있는 전시회 중 하나가 인상파 화가나 유명한 고전 화가들의 그림을 대형 빔프로젝터를 이용해서 벽면 전체에 그림을 투사하는 미디어아트 전시회가 유행하고 있습니다. 그냥 그림만 크게 보여주면 재미가 없기에 그림이 영화처럼 살짝살짝 움직입니다. 동영상과 사진이 섞인 시네마토그래피 스타일의 이 영상 전시회가 인기를 끌고 있네요.

이렇게 그림이나 사진 같이 정지된 이미지를 움직이게 하려면 CG를 이용해야 합니다. 한마디로 노가다로 만들어야 합니다. 그런데 사람이 말을 하는 장면은 그 인물의 사진 1장으로 만들 수 있는 기술이 나왔습니다.

모스코바에 있는 삼성전자의 인공지능 센터와 러시아의 실리콘밸리인 스콜코보 과학기술 연구소의 엔지니어가 기존의 3D 모델링 기법을 사용하지 않고 AI 기술을 이용해서 1장의 인물 사진만 가지고 말하는 동영상을 만드는 기술을 만들었습니다. 초기 기술은 8장의 인물 사진을 바탕으로 눈썹, 코, 입, 턱라인의 변화를 추출한 후 새로운 말하는 동영상을 만들었습니다.

즉 기존에는 A라는 사람이 말하는 여러 장의 사진 또는 동영상을 보고 그 사람의 말할 때의 특징을 추출한 후 A라는 사람이 말하지 않은 내용까지 말하게 하는 영상을 만들 수 있었습니다.