영화 속 구라를 현실로 만들고 있는 구글 이미지 해상도 업스케일링 기술

지금도 많은 영화나 드라마에서 CCTV 영상을 보다가 저기를 확대해봐 하면 키보드를 두들기면 화면 한 부분을 확대한 후 스캐닝을 하면 화면 해상도가 올라갑니다. 그러나 이런 기술은 현재 없습니다. 영화적인 장치일 뿐 실존하는 기술이 아닙니다. 동영상이나 사진 일부분을 멈추고 확대하면 픽셀이 크게 보일 뿐이죠.
저해상도 사진을 확대하면 픽셀이 크게 보이지 선명한 사진이 보이지 않습니다. 그래서 확대를 예상하고 촬영하는 사진은 카메라의 해상도 중 최고 해상도로 촬영해야 합니다. 기술이 참 많이 발전했지만 아직도 저해상도 사진을 고해상도로 만들어주는 기술은 쉽게 나오지 않네요. 생각해보면 저해상도 사진을 고해상도로 만들려면 사진 데이터를 증폭해야 하는데 증폭에 필요한 데이터를 인위적으로 만들어야 합니다. 예를 들어서 흐릿한 사진을 선명하게 만들려면 상상을 하면서 대충 이럴 것이다라고 추측을 해야 합니다. 문제는 이 추측을 사람이 하면 사람마다 다 다릅니다.
예를 들어서 같은 저해상도 흐릿한 인물 사진을 주고 고해상도 사진처럼 선명하게 그려보라고 화가들에게 주면 다 다른 인물 사진을 만들어서 올겁니다. 하지만 어떤 화가는 실제 얼굴과 근접한 얼굴을 그려 올 겁니다. 그 화가는 아주 경험이 많고 추론력이 뛰어난 화가겠죠.

인공지능 기술을 이용한 구글 이미지 해상도 업스케일링 기술

구글 AI 공식 블로그는 놀라운 사진들이 올라왔습니다. 위 사진은 왼쪽의 원본 사진을 구글 AI 기술로 고해상도 기술로 만든 사진입니다. 위에서 장황하게 설명한 추론과 경험을 이용해서 이럴 것이다라고 만든 사진입니다.
구글은 저해상도를 고해상도로 이미지를 변환해주기 위해서 확산 모델(Diffusion Model)이라는 AI 기법이라는 새로운 접근 방식으로 이 성과를 낼 수 있었습니다. 앞으로 이 기술을 이용해서 사진 복원이나 영상 개선 등등에 활용할 수 있을 것으로 보입니다.

구글의 저해상도 사진을 고해상도 이미지로 만드는데에는 적대적 생성 네트워크(GANs)와 Variational Auto-Encoder : VAE와 자기 회귀 모델 등의 딥러닝 기술이 사용되었습니다. 이 3개의 모델은 각기 문제점이 있었습니다.
구글은 이런 문제점을 보완하기 위해서 " Super-Resolution via Repeated Refinements (SR3) "및 " Cascaded Diffusion Models (CDM) '라는 2 개의 새로운 확산 모델 접근법을 사용함으로써 확산 모델의 이미지 생성 품질을 향상할 수 있습니다.
SR3는 먼저 저해상도 이미지에 가우스 잡음을 서서히 추가합니다. 자글자글안 잡음이 가득할 때까지 일부러 이미지를 손상시킵니다. 그 후에 훈련된 신경망으로 이 손상된 이미지를 서서히 복원시키면서 노이즈를 제거합니다. 이 과정에서 원본의 해상도 이상의 고해상도가 복원이 됩니다.

위 사진은 왼쪽이 64 X 64 픽셀의 저해상도 이미지입니다. 오른쪽은 저해상도 이미지를 가우스 잡음을 추가해서 순수한 잡음 상태로 만들었습니다.

그리고 딥러닝 신경망 기술을 이용해서 서서히 노이즈를 줄이면서 복원합니다.

이게 복원된 사진입니다. 실제 고해상도 모자이크 사진은 눈을 게슴츠레 뜨면 좀 더 선명하게 보이잖아요. 제가 해봤더니 상당히 유사합니다.

아주 응용할 곳이 많은 기술이네요. 얼마나 비슷한지 원본 고해상도 사진과 원본 사진을 저해상도 사진으로 만들고 이걸 구글 AI가 다시 복원한 사진을 사람들에게 보여줬습니다.

AI가 생성한 이미지와 원본 이미지를 보여주면서 어떤 사진이 원본 사진인지 구별해 보라고 사람들에게 테스트를 해봤습니다. 혼란 비율이 50%에 가까울수록 판별하기가 어려운 사진입니다. 쉽게 말해서 하나는 AI 기술로 만든 저해상도 사진을 복원한 고해상도 사진과 실제 원본 고해상도 사진을 보여주고 어떤 것이 원본 사진인지 구별해 보라고 해서 50%로 헛깔리면 구별하기 어렵다는 소리입니다.

위 표를 보면 16 x 16 해상도 사진을 128 x 128 해상도로 복원한 사진에서는 다양한 복원 기술 중에 구글이 개발한 SR3 기술이 47.4%로 가장 높았습니다. 64 x 64 사진을 256 x 256 복원한 사진에서는 SR3가 혼란율이 39%로 조금 떨어졌습니다.