본문 바로가기
IT/IT월드

딥 페이크 영상을 가려내는 방법은 '눈빛'을 봐라

by 썬도그 2021. 3. 15.
반응형

요즘 딥 페이크 범죄가 늘어나고 있습니다. 딥 페이크가 뭔지 잘 모르는 분들이 있기에 간단하게 설명하겠습니다. 
딥 페이크는 AI가 기계학습을 통해서 일반 영상에 다른 사람의 얼굴을 합성한 동영상입니다. 이 기술은 인공지능이 다른 사람의 얼굴을 담은 영상이나 사진을 분석해서 다른 영상에 합성을 하는 기술입니다.

이 자체는 문제가 전혀 없습니다. 문제는 이 딥 페이크 기술을 이용해서 왜 예전에 포토샵을 이용해서 음란 사진에 유명 연예인 합성한 사진들처럼 음란 영상을 만드는 것이 문제입니다. 3월 초에 SBS '그것이 알고 싶다'는 딥 페이크 기술을 이용 일반인들의 음란물을 만드는 문제점을 지적했습니다. 

이 딥 페이크 기술은 그렇게 어려운 기술도 아니고 이쪽에 관심이 있는 분들은 누구나 쉽게 이용할 수 있는 기술입니다. 
이 딥 페이크 기술을 이용한 가짜 영상물이 유튜브 등에 올라오면서 미국은 관련 기술에 관한 범죄 행위를 막기 위한 움직임을 보이고 있습니다. 

youtu.be/HhmOJ2SzmFA

영상을 보시면 딥 페이크 기술이 꽤 정교하지만 쉽게 알아챌 수 있는 점도 알 수 있습니다. 그러나 이건 움직임이 있는 영상이고 움직이지 않고 한 각도에서만 보여주는 영상은 아주 아주 정교해서 알아챌 수 없을 정도입니다. 또한, 이 기술은 기계학습을 통해서 앞으로 더 진화를 할 것입니다. 

이 '딥 페이크' 기술을 악용하는 걸 막으려면 이걸 잡아내는 기술도 발전해야 합니다. 
뉴욕 주립대 연구팀은 이 딥 페이크 영상물을 가려내는 방법을 연구했습니다. 

https://arxiv.org/pdf/2009.11924.pdf

위 사진 중 왼쪽은 실제 얼굴이고 오른쪽은 적대적 생성 네트워크(GAN) 기계학습 기술로 만든 가상의 얼굴입니다. 언뜻 보면 실제와 가상으로 만든 얼굴 차이를 알 수 없습니다. 그러나 눈동자에 반사된 빛을 보면 진짜 사진은 외부의 빛을 동일한 각도로 반사를 하는 걸 알 수 있습니다. 그러나 딥 페이크 기술로 만든 가상의 사진은 눈동자에 비친 빛이 다릅니다. 

사진을 가짜 사진인지 진짜인지 감정하는 간단한 방법이자 사진 분석 포렌식 기초는 빛의 방향입니다. 광원이 1개라면 사진 모든 곳에서 빛의 반사각이 동일해야 합니다. 그러나 합성 사진은 합성 부분만 빛이 강하거나 약하거나 빛의 반사 각도가 다릅니다. 따라서 강한 광선이 없거나 확산광인 곳에서는 분석이 좀 더 어렵습니다.

우리 눈은 외부의 빛을 반사하는 눈동자를 가지고 있습니다. 이 검은 눈동자에 반사되는 빛을 잘 담는 사람이 인물 사진 잘 찍는다는 소리를 듣습니다. 인물 사진의 주인공은 눈이고 눈의 주인공은 눈동자의 반짝거리는 반사입니다. 

이 반사되는 빛이 각도가 다르면 그 영상이나 사진은 페이크 사진, 딥 페이크 영상물일 확률이 높습니다. 

보시면 위 이미지 중 상위에 있는 건 진짜 사람의 두 눈이고 아래는 딥 페이크가 만든 가상의 인물의 사진입니다. 사진이 눈만 가득하니 좀 무섭긴 하네요. 연구팀은 진짜와 가짜를 구분하는 loU 점수를 만들었습니다. IoU 점수는 왼쪽과 오른쪽 눈동자에 비친 외부의 빛 모양이 비슷할수록 높은 점수를 주고 다를수록 낮은 점수를 줬습니다. 

IoU 점수가 0.5824 ~ 0.8406이면 진짜 사진과 영상, 0.2429 ~ 0.3512는 딥 페이크 사진 또는 영상으로 판별했습니다. 

이걸 보니 홍채의 떨림을 통해서 안드로이드와 인간을 구별하던 영화 '블레이드 러너'의 한 장면이 떠오르네요. 태어난 것이 아닌 만들어진 안드로이드는 유년 시절의 기억이 없는데 유년 시절에 관련된 질문을 하면 감정 변화가 없는 것으로 판별했습니다. 

이 기술의 약점은 양 눈이 다 담긴 영상이나 사진이어야 하지 한 눈으로는 판별이 불가능합니다. 양쪽 눈동자에 맺힌 빛 반사를 가지고 하는 판별법의 한계죠. 또한 영상 속 주인공이 카메라를 정면으로 응시하지 않고 다른 곳을 보고 있는 영상은 판별하기 어렵습니다. 또한, 이런 판별법도 AI가 기계학습을 더 많이 해서 눈동자 빛까지 정교하게 합성을 하면 무용지물이 됩니다. 

다만 현재의 딥 페이크 기술은 자세히 보면 구분이 가능할 정도입니다. 그러나 이쪽 기술은 엄청나게 속도가 발전하기에 정말 정교한 영상물이 만들어질 수 있습니다. 

반응형