SPECIAL ISSUE
02

K-콘텐츠를 이끄는 디지털 휴먼 기술, 스크린 위의 또 다른 배우

글. 송재원
덱스터스튜디오 R&D 연구소장
KAIST 문화기술대학원에서 석사 및 박사 학위를 취득하고, 한국의 CG VFX 회사인 ㈜디지털아이디어와 ㈜엔진비주얼웨이브에서 R&D 연구소장으로 재직하였다. 현재는 ㈜덱스터스튜디오의 R&D 연구소장으로 근무하는 한편, 홍익대학교 영상·커뮤니케이션 대학원 겸임교수로 학생들을 가르치고 있다. 주요 연구 분야는 컴퓨터 그래픽스분야에서 디지털 휴먼의 모션 캡처 및 페이셜 애니메이션이다.
디지털 휴먼 사업의 난제
가상의 인물을 디지털로 구현하는 디지털 휴먼 기술은 영화, 게임 등 전통적인 미디어 콘텐츠뿐만 아니라 광고, 방송, 교육 등 다방면에서 대중에게 친숙하게 다가가고 있다. 그러나, 메타 버스의 붐과 함께 화려하고 사실적인 외모를 앞세워 활발히 등 장했던 많은 버추얼 인플루언서(Virtual influencer)들은 점차 대 중 앞에서 그 활동이 뜸해지고 있는 실정이다.


그림1 불쾌한 골짜기(Uncanny Valley)의 설명

그 이유는 크게 두 가지로 요약할 수 있는데, 하나는 ‘불쾌한 골짜기’로 인한 높은 기술적 난이도, 다른 하나는 높은 제작비 문제이다. ‘불쾌한 골짜기’란 일본 도쿄 공업대의 모리 마사히로교수가 주장한 이론으로, 인간은 자신과 닮은 대상에 친숙함을 느끼지만 인간을 어설프게 닮은 대상에 대해서는 불쾌감이 증가한다는 것이다. 특히 사람의 얼굴은 인간에게 매우 익숙한 대상이어서, 그 형태나 움직임이 조금만 어색해도 누구나 눈치챌 수 있다. 이것이 인간과 구분할 수 없는 사실적인 디지털 휴먼을 제작하는 데 기술적 난이도를 높이는 가장 큰 장벽이다.
높은 기술적 난이도는 두 번째 문제인 제작비 문제를 동반한다. 늙지도, 변하지도, 지치지 않고 활약할 수 있다는 디지털 휴먼의 화려한 장점들은 높은 제작비와 지속적인 운용비 지출이라는 현실을 뒤로 감추었다. 실제 사람과 흡사한 고품질의 디지털 휴먼은 한 번 제작하는 데에도 높은 비용이 필요하지만, 이를 실제 사람처럼 말하고, 표정 짓고, 움직이게 하는 데에는 수많은 아티스트들의 수작업 또는 ‘쉐도우 액터(shadow actor)’라 불리는 얼굴 없는 연기자의 목소리와 연기가 필수적이다. 즉, 사람이 필요 없는 디지털 휴먼을 제작하였으나 더 많은 사람이 끊임없이 투입되어야 하는 모순에 빠진다. 이렇게 만들어진 디지털 휴먼은 새롭고 신기한 것을 넘어 현실의 모델·인플루언서들과 경쟁하여 대중의 눈높이를 만족시켜야 했고, 이러한 상업적 성공은 더 험난한 도전일 수밖에 없다.
따라서 최근 디지털 휴먼 사업은 사실적인 디지털 휴먼보다 만화 캐릭터를 현실로 옮겨둔 듯한 ‘버튜버’, ‘버추얼 아이돌’을 중심으로 성장하고 있다. 카툰 렌더링 또는 비사실적 렌더링(NPR, Non-Photorealistic Rendering)이라 불리는 이 기법은 디지털 휴먼의 얼굴 표현을 미리 준비된 몇 가지 표정으로 단순화 함으로써 까다로운 불쾌한 골짜기 문제를 회피할 수 있게 한다. 또한 상대적으로 낮은 기술적 난이도로 제작비를 줄일 수 있고, 매력적인 성격으로 끼를 발산할 수 있는 쉐도우 액터를 발굴하는 데 집중함으로써 대중의 마음을 사로잡는 데 성공하였다.


그림2 다이내믹 3D 스캔 수행 예




사실적 디지털 휴먼을 위하여
그렇다면 사실적인 디지털 휴먼은 어떤 분야에 적합한가? 실사와 흡사한 사실적인 디지털 휴먼은 많은 예산을 투입해 최고 수준의 퀄리티를 구현해야 하는 영화나 OTT 시리즈의 CG·VFX 제작, AAA급 게임 제작과 같은 대규모 프로젝트에 적합하다. 이런 프로젝트에서는 배우의 미묘한 감정 연기를 전달하고 관객의 감동과 몰입을 해치지 않는 높은 퀄리티가 무엇보다 중요하므로, 기술적 어려움과 높은 예산에도 불구하고 사실적인 디지털 휴먼이 필수적이다.
이 중에서 실제 유명 배우를 쌍둥이처럼 디지털로 재현하는 것을 디지털 더블(Digital Double)이라 한다. 디지털 더블은 배우가 직접 수행할 수 없는 위험한 스턴트 연기를 대신하거나, 고인이 되었거나 나이 든 배우의 젊은 시절을 재현하는 등 다양한 목적으로 활용된다. 특히 콘텐츠의 안정적 흥행을 위해 과거 대중에게 친숙한 IP와 인기 있던 주인공을 다시 등장시키는 기획이 점차 늘어나면서, 디지털 더블의 중요성도 함께 커지고 있다. 다만 우리나라에서는 이러한 디지털 휴먼이 주연급으로 영화에 등장하는 프로젝트를 찾기 어렵다. 헐리우드 영화시장과 비교하면 제작비 규모의 차이가 크고, 축적된 기술 수준도 여전히 부족한 실정이다. 현재 우리나라가 극사실적 디지털 휴먼 분야에서 가장 뒤처져 있는 두 가지 기술적 영역은 페이셜 리깅(Facial Rigging)이라 불리는 얼굴 표정 제어 시스템과, 퍼포먼스 캡처(Performance Capture)라 불리는 배우의 연기를 획득해 디지털 휴먼에 옮겨주는 기술이다. 그러나 이들 모두 외산 솔루션에 의존하거나 제작 경험 자체가 부족하다.


그림3 AI 기반 인물 리에이징(Re-aging) 예

페이셜 리깅(Facial Rigging)의 경우 같은 표정을 짓더라도 근육의 움직임이나 주름의 모양 등이 모두 다르므로, 배우의 다양한 표정을 3D 스캔하여 해당 데이터를 조합하는 기술이 널리 활용된다. 최근에는 개별 표정뿐만 아니라 3D 스캔을 초당 수십 회 이상 수행해 복잡하게 변화하는 얼굴 움직임까지 연속적으로 획득하는 다이내믹 3D 스캔(또는 4D 스캔)이라는 기술이 각광 받고 있다. Weta Digital과 같은 헐리우드 VFX 스튜디오에서는 디지털 더블 제작을 위해 이미 널리 활용되고 있으나, 우리나라는 일부 연구기관이나 회사에서만 장비를 보유하고 있으며 연구개발도 아직 초기 수준에 머물러 있다. 퍼포먼스 캡처는 몸체와 얼굴 캡처로 나뉘는데, 몸체를 캡처하는 기술은 국내에서도 상용 목적으로 널리 활용되고 있다.
다만 얼굴 표정을 캡처해 감정 연기까지 정교하게 전달하는 기술은 획득 장비부터 알고리즘까지 전반적인 연구·개발이 필요하며, 현재는 iOS가 제공하는 ARKit이 얼굴 캡처의 합리적인 대안으로 현업에서 활용 중이다.




AI 기술과 디지털 휴먼 제작
AI 기술은 디지털 휴먼 제작에도 큰 변혁을 불러일으키고 있다. 앞서 설명한 고비용의 디지털 휴먼 제작 과정 없이도 촬영된 영상에서 인물의 얼굴을 교체하고, 나이를 자유자재로 젊어지거나 늙게 만드는 AI 리에이징(Re-aging) 기술이 등장하며 새로운 전환점을 마련한 것이다. 이는 콘텐츠 제작 공정을 혁신적으로 개선해 제작 비용을 낮추고, 감독 및 창작자의 창의성을 발현하는 데 큰 도움을 줄 수 있다.
다만 아직 AI 디지털 휴먼 기술을 영화 등 고품질 콘텐츠에 적용하기에는 기술적 한계가 존재한다. 그중 첫 번째는 4K 이상 고화질 이미지를 제작하는 데 어려움을 보이고 있다는 점이다. 이는 학습된 AI 모델이 비교적 낮은 해상도의 이미지들로 학습되었기 때문이며, 이미지의 해상도뿐만 아니라 각 픽셀이 가진 데이터 크기인 비트 심도(bit depth) 역시 현업 수준과 차이가 있다. 그러나 이는 학습 모델의 발달로 점차 개선될 것으로 보이며, 현재도 저해상도로 생성된 영상을 고해상도로 업스케일링(upscaling)하는 기법을 통해 콘텐츠에 적용하는 방식이 널리 활용되고 있다.
두 번째 AI 디지털 휴먼의 한계점은 감독이나 연출자의 의도를 정확히 반영한 컨트롤이 어렵다는 것이다. 감독들은 영상 내에서 배우의 손끝, 입꼬리, 작은 떨림과 같은 미세한 표현들을 중요하게 여기며, 실제로 이러한 요소들의 작은 차이가 풍부한 감정 표현과 감동을 이끌어낸다. 다만 현재의 AI 기술은 압도적인 생산성에도 불구하고 이러한 미세한 컨트롤 영역에서는 많은 한계를 보이고 있어, 수많은 재생성이나 후반 작업을 거쳐야 연출자의 의도에 근접한 결과물을 만들어내며 결과적으로 뛰어난 생산성을 상쇄시키고 있다. 그러나 마음에 드는 결과물에서 세부 요소를 미세하게 수정할 수 있는 AI 기술들이 다양하게 발달하고 있으므로, 이는 근시일 내에 개선될 것으로 보인다.
마지막 한계점으로, 현재 공개된 AI 디지털 휴먼 기술들은 외국인 얼굴 데이터셋을 학습해 만들어진 모델이 대부분이어서 한국인에 적용할 경우 미묘하게 낯선 얼굴이 생성되는 것을 확인할 수 있다. 이를 개선하기 위해서는 연령과 성별을 아우르는 한국인 얼굴을 포괄한 양질의 데이터셋 구축과 이를 기반으로 한 자체 AI 모델 학습이 필요하며, 이를 위해 학계와 업계의 노력뿐 아니라 정부와 민간의 투자가 요구되는 시점이다.