[인터뷰] 교실에 침투한 딥페이크 그림자, 기술의 원형부터 윤리적 질문까지 - 강현주 인공지능 연구원, 김광집 스튜디오메타케이 대표와 함께 딥페이크 파헤치기

HOME > Magazine > 스페셜 > 스페셜2

글 이자연 사진 오계옥 2024-10-04

딥페이크란 정확히 어떤 기술일까. 인공지능(AI) 기술의 현황과 작동 원리, 개발 목적 등 객관적이고 정확한 정보가 대중에게 전달되기 전, 사람들은 딥페이크의 악용과 오류를 먼저 접했다. 루머, 가짜 영상, 무단 유포, 성범죄, 지인 능욕 등등. 범죄의 온상을 상징하는 딥페이크 연관어를 보며 우리는 산업적 관점의 질문 하나를 건네기로 했다. “정말 딥페이크는 유죄일까?”

인간의 삶을 이롭게 하고 싶었던 기술의 원형을 제대로 파악하기 위해 두 전문가를 만났다. 강현주 인공지능 연구원과 김광집 메타케이스튜디오 대표를 통해 딥페이크 기술이 본래 활용되어야 했던 방향을 재점검하고, 엔터테인먼트 분야가 인공지능 발달에 따라 어떤 산업적 변화를 거치고 있는지 둘러보았다. 또 10대 청소년을 가로지르는 딥페이크 성범죄의 기술적·사회적 근원도 함께 이야기했다. 이 대담을 통해 인공지능과 우리의 삶 사이에 놓인 연결고리를 쉽게 이해할 수 있을 것이다.

- 두 대담자 모두 이력에 생성형 인공지능이라는 공통분모가 있다. 생성형 인공지능부터 짚고 넘어가자.

강현주 생성형 인공지능은 일반적으로 챗지피티나 미드저니를 떠올리면 쉽다. 인공지능에 명령을 내리고 그에 상응하는 결과를 얻는데, 이 과정에 텍스트, 이미지, 음성 등 활용 포맷이 무척 다양해졌다. 예를 들어 우리가 챗지피티와 텍스트로 대화를 나눌 수도 있지만 사진을 보내 그 안에 담긴 내용을 해석해 달라고 할 수도 있다. 반대로 미드저니는 텍스트를 입력하면 그림을 만들어준다. 인공지능 가수 프로그램도 프로그램에 가사와 가수 이름을 넣으면 특정 음성으로 노래를 입혀준다. 생성형 인공지능으로 의료나 과학 문제를 해결하기도 하지만 그중 가장 주목받는 건 미디어 콘텐츠다.

김광집 생성형 인공지능이 지닌 가장 큰 기능 중 하나가 딥러닝이라는 학습 기능이다. 데이터를 대규모로 학습시킨 다음 거기에 명령어를 넣으면 새로운 콘텐츠를 만들 수 있다. 예를 들어 우리의 얼굴을 모두 학습시키고 그와 유사한 새로운 얼굴을 만들라고 명령하면 결과가 자동으로 나온다. 인간이 했다면 비주얼 이펙트 등 다양한 기술을 거쳐야 했을 일이다.

왜 우리에게 딥페이크가 필요한가요?

김광집 - 서울예술대학교 영상학부 교수, IP 콘텐츠 스튜디오 스튜디오메타케이 대표. 미국 디지트로브(Digitrove)에서 VFX 프로듀서로 다수

- 그렇다면 딥페이크는 정확히 어떤 기술인가.

강현주 생성형 인공지능이 동영상도 만들고 그림도 그리고 글도 쓰는 등 여러 기능을 한꺼번에 수행하면 좋겠지만 아직 거기까지 도달하지 못했다. 한 프로그램이 한 가지 기능을 수행하는 정도인데 이런 기술을 약 인공지능이라고 부른다. 여러 과업을 한번에 수행하면 강 인공지능이라고 일컫고. 다양한 약 인공지능이 있다. 이미지, 텍스트, 비디오, 3D 모션, 사운드 등 무수한 분야가 나뉘어져 있다. 그중에서도 이미지 도메인에서 사람의 얼굴, 신체의 특정 부위를 합성하는 것을 바로 딥페이크라고 부른다. 생성형 인공지능 중 이미지를 다루는 약 인공지능의 한 분야라 볼 수 있다.

김광집 미국 영화산업에서는 다양한 인공지능 기술을 적용하고 있다. 예를 들어 아이언맨이나 헐크 같은 가상인물을 촬영할 때, 고난도 장면에서 다른 배우가 연기를 하고 그 위에 디지털 더블을 씌워 진짜처럼 만든다. 그런데 한국은 아직 디지털 더블 기술이 발전하지 않았다. 제작비도 천정부지라 분당 억대로 나온다. 이때 딥페이크가 합성 기술 중 가장 저렴하고 현실적인 대안이 된다. 국내에서는 가상인간의 90% 이상이 딥페이크를 적용하고 있다. 다만 문제가 있다. 화각이 부자연스럽다. 딥페이크 영상 대부분이 전면 위주인 것도 인물이 전방 100도 안에서 움직여야 하기 때문이다. 뒤를 돌거나 춤을 추는 역동적인 장면은 어려운 상태다. 하지만 이것도 계속해서 발전하고 있다. 체감상 주 단위로 발전하는 느낌이다. 불과 1~2년 전만 해도 기술 발전이 더뎌 AI 생성물의 진위 여부를 금세 파악할 수 있었는데, 최근에는 내가 봐도 아리송하게 느껴진다. 기존에 비주얼 이펙트 기술이 중점이었다면 이제는 인공지능 기술이 보편화되고 있다.

- 콘텐츠 산업은 AI 기술의 접목을 환영하는 분위기인가.

김광집 물론 이런 부분을 불편해하는 사람들도 있다. 고인의 유가족이 반대하는 경우가 많다. 국내에서는 고 김현식 가수를 홀로그램으로 살려 콘서트를 하기도 하고 미국에서는 엘비스 프레슬리가 무대에 오르기도 한다. 하지만 이것을 반대하는 목소리도 많다. 유가족의 동의를 구하는 게 생각보다 쉽지 않다.

- 처음 딥페이크가 연구되었을 때 이 기술이 어떤 방향으로 인간의 삶을 이롭게 할 거라 기대했나. 개발 취지가 궁금하다.

김광집 다양한 산업군에서 사람의 얼굴과 목소리, 몸동작 등을 자동화 기술로 빠르게 구현할 거라 기대했다. 병원에서 시·수술을 통한 얼굴과 체형 변화 등을 딥페이크 기술로 미리 비교해볼 수 있고 증명사진도 편하게 수정할 수 있다. 이 과정에 경제성과 편리성, 효율성이 높아지니 산업적으로 개선된 생산성을 기대할 수 있었다. 또 공익 콘텐츠에 접목되면서 선한 영향력을 전하는 경우가 많다. 이를테면 유튜버 하일광님이 올해 광복절을 맞이하여 해방 소식을 들은 독립투사들의 웃는 얼굴을 구현한 장면이나, 오래전 미아가 된 사람들의 현재 얼굴을 예측한 콘텐츠가 그렇다. 또 소방의 날 순직한 소방관들을 재현하여 애도하는 것도 딥페이크 기술이 자아낼 수 있는 감성이고 메시지다.

강현주 딥페이크를 포함한 인공지능 기술이 사회에 직접적인 영향을 미치면서, 학계에서는 논문을 연구할 때에는 새 기술이 대중에게 어떤 영향을 미칠 거라 판단하는지 연구자에게 직접 쓰도록 한다. 하지만 일반 회사의 경우, 기술 개발을 기획할 때 정확한 모델을 지정한다. 디지털 휴먼을 만든다고 가정하면 어느 정도의 주제로 이야기를 나눌 수 있게 할지, 어느 정도의 상호작용을 할 수 있게 할지 그 수준을 정해둔다. 이 과정에서 인공지능 개발이 지니는 파장과 영향을 계속 고민하면서 나아가면 좋겠지만 현실적으로 주어진 예산과 시간이 한정적이기 때문에 성능을 올리는 데 주안점을 두는 편이다. 하지만 프로그램 소스를 일반인에게 전체 공개하는 경우 추후 여파를 고민하는 분위기로 바뀌고 있다. 그래서 최근 빅테크(애플, 구글, 마이크로소프트 등 큰 기술 회사들)들이 인공지능 모델을 일부러 전체 공개하지 않는다는 생각도 든다. 그것이 그들의 자산이고 노하우이기 때문이기도 하지만 모든 기술을 공개할 때 악성 유저에 의한 악용 사례가 보고되는 경우가 많아서이기도 하다.

- 이번 딥페이크 성범죄의 주요 쟁점은 가해자와 피해자 절반 이상이 10대 청소년이라는 점이다. 10대 청소년이 딥페이크 성범죄에 쉽게 접근할 수 있던 이유는 유튜브에서 딥페이크 영상을 만드는 방법을 친절하게 알려주고, 20초면 딥페이크 콘텐츠를 완성하는 애플 때문으로 추정된다. 기술의 보편화는 개발자들이 바라온 목표이지만 너무 쉬운 난이도를 이번 사건의 원인으로 지적하는 목소리도 적지 않다.

강현주 이게 정말 기술의 난이도가 쉬워서 발생한 문제일까. 난 그렇게 생각하지 않는다. 내가 처음 학부에 입학했을 때만 해도 공대를 다닌다고 하면 사람들이 내 전공을 어려운 것, 머리 아픈 것만으로 받아들였다. 컴퓨터가 고장나면 찾는 친구 정도랄까. 과학기술이 어려운 것이라는 오랜 편견이 있었기 때문이다. 하지만 사람들이 과학기술과 친해질 때 얻는 것이 더 많다. 이번 딥페이크 성범죄가 전국으로 빠르게 알려질 수 있었던 것도 한 중학생이 피해 학교 지도를 만들었기 때문이다. 다른 사람들도 그 지도에 학교 명단을 간편하게 추가할 수 있게 하면서 사태의 심각성도 점점 널리 퍼져나갔다. 이게 가능했던 이유는 과학기술을 잘 알고 있는 사람이 있었기 때문이다. 앞으로 과학기술은 오히려 더 쉬워져야 한다. 그래야만 딥페이크를 딥페이크로 알아보는 눈이 생기고, 이 문제를 해결할 힘을 키울 수 있다. 가짜 정보에 속아 효소를 사먹거나 유사과학에 기대는 일 또한 줄어들 것이다. 기술이 악용되었을 때 그것을 아예 없애는 게 아니라 그 문제에 대항하는 새로운 기술을 만들어내야 한다.

김광집 편리함에 익숙해진 생활 패턴 자체는 이제 돌이킬 수 없다. 2~3년 전만 해도 딥페이크가 실물을 완벽하게 인식하기 위해서는 관련 이미지가 2만장씩 필요했다. 그런데 지금은 몇장만으로도 가능하다. 편리해진 생활 방식, 산업적 효율과 생산성 등 딥페이크가 만들어내는 이점을 결코 외면할 수 없다. 다만 국내에서 디지털성범죄 처벌이 너무 약한 게 문제다. 미국의 경우 이런 케이스, 특히 미성년자가 피해자가 된 사례에는 바로 구속에 중형을 구형한다. 하지만 한국은 이런 문제에 너무 관대하다. 여러 테스트를 위해 회사에서 국내외 딥페이크 애플을 다운받아 써보았는데, 해외의 것은 본인 인증을 하지 않으면 쓸 수 없도록 설계해놨다. 실제 자신의 신분증을 등록해야 한다. 남의 얼굴을 학습시키지 못하게 방지한 것이다. 올해 7월, 미국에서는 디파이언스 법(Defiance Act, Disrupt Explicit Forged Images and Non-Consensual Edits Act)이 통과됐다. 타인의 허가 없이 얼굴과 신체 부위를 마음대로 합성해 유포할 경우 형사처벌은 물론 민사 손해배상까지 책임져야 하는 법이다. 상당히 무게가 높은 법령이다. 하지만 한국은 어떤가. 벌금형이나 가벼운 처벌로 끝나고 만다. 다각도의 조율이 필요한 상황이다.

인공지능 기술을 어느 방향으로 나아가게 할 것인가

강현주 - 인공지능 연구원. 전기전자공학을 공부했지만 컴퓨터과학에 좀더 가까운 분야에서 연구자로 일한다. 인공지능을 활용한 여러 기술들이 널리 쓰이고 있는 지금, 과학기술이 사회와 상호작용하는 방식을 여성주의적 관점으로 읽어내는 일에 관심이 많다.

- 인공지능이 도대체 어디까지 발전한 상태인지, 이 부분에 공포심을 갖는 사람도 많다. 챗지피티를 두고 유료 버전의 수준은 상상할 수 없는 정도라는 소문도 무성하다. 정확하게 현재 영상산업 안에서 인공지능의 발전 수준과 활용도는 어떠한가.

김광집 엔터테인먼트 산업에 집중해 말해보면 업계 전문가 중 한분은 인공지능의 발달 속도를 확인하고 공황장애가 왔다고 하더라. 뭐랄까. 앞으로 이제 무엇을 하며 살아야 하나 막막한 것이다. 우리 회사에서도 촬영, 편집을 하나도 진행하지 않고 오직 인공지능으로만 영상을 만든 적이 있다. <왕비어천가>( 100% 생성형 AI로 제작된 스튜디오메타케이의 웹드라마.-편집자)에서 궁궐 앞에 무수한 사람이 있는 장면을 직접 촬영한다고 생각해보자. 인력 대동부터 막대한 비용이 뒤따르지만, 인공지능을 이용하면 단번에 장면을 완성할 수 있다. 또 주인공으로 등장하는 여성 인물도 가상 인간에 딥페이크를 접목한 것이다. 이런 숏을 단 한명의 제작자가 별도의 비용 없이 며칠 만에 만들 수 있다는 사실에 주변 촬영감독, 편집감독 등 미래를 걱정하는 목소리가 크다. 정말 무섭게 변하고 있다.

강현주 위험 의식이 없기도 하다. 병원에서 인공지능이 촬영한 사진을 보고 의사가 오판을 내렸을 때, 의료사고를 누가 책임질지는 아주 첨예한 문제가 된다. 자율주행도 똑같다. 자율주행으로 운전다 사고가 났을 때 이 문제를 과연 누가 책임질 것인가. 기술을 만든 회사, 그 기술을 접목한 자동차 회사, 운전자, 자율주행을 허용한 지자체… 아무도 쉽게 답할 수 없는 문제인데 엔터테인먼트 영역에서는 위험부담이 상대적으로 덜해서 더 많이 각광받고 쉽게 적용하는 것 같다.

김광집 인공지능으로 자동화가 보편화되면서 사람들의 여가 시간 이 늘어나는 만큼 엔터 산업의 인공지능 활용은 앞으로도 더 활성화될 것이다. 그러니 산업 자체는 더 커지되 직군 내의 변동이 생길 수 있다고 예측한다. 촬영, 편집 등 레거시 활동을 펼치던 사람들보다 1인 크리에이터와 인공지능 활성화가 산업의 형태를 변형시킬 듯하다. 나 또한 이런 변화에 위기감을 많이 느낀다. 하지만 반대로 레거시 문법을 알고 있는 사람들이 인공지능 기술을 습득한다면 얼마나 큰 시너지를 낼 수 있을까? 섬세한 인간의 손길을 덧대온 사람들이 레거시 기술만 바라보기보다 열린 태도로 인공지능 기술과 작동 방식을 이해할 때 더 큰 효과를 얻을 수 있다고 믿는다. 열린 태도, 그게 관건이다.

강현주 얼마 전 영화 <에이리언: 로물루스>를 보았는데 페데 알바레스 감독이 물리적인 실험을 좋아해서 인공지능과 시각효과를 거의 사용하지 않고 크리처의 물리 엔진을 직접 만들었다더라. 결국 인간이 직접 노동하는 일의 가치를 아는 사람은 그 일을 잘해내고 그 가치를 아는 사람들에게 발견된다. 물리 엔진을 활용한 덕에 <에이리언: 로물루스> 크리처의 질감과 움직임이 시각적으로 편안하게 느껴졌다는 관객 반응도 많다. 지금 당장 자개장과 나전칠기를 사용하지 않아도 그 아름다움을 주목하듯 많은 이들이 결국 인공지능과 인력 사이의 특징을 구별할 거라 믿는다.

ⓒ스튜디오메타케이

<왕비어천가> 트레일러의 한 장면. 궁궐 앞 많은 사람이 모인 장면을 100% AI를 활용해 만들었다

김광집 현재 국가 차원에서도 개발 중이고 AI가 접목된 영상을 표기해주는 기술도 보편화돼 있다. 인스타그램에도 딥페이크가 적용된 영상이 올라가면 자동으로 ‘AI 정보’라는 문구가 뜬다. 인공지능이 인식되니 스스로 판단하라는 표시다. 이렇게 플랫폼이 딥러닝으로 학습해서 가짜 이미지와 진짜 이미지를 구분하는 방법이 있고, 그 외에는 포털사이트의 금지 검색어처럼 ‘누드’, ‘성인물’ 등 특정 단어를 포함한 경우 이미지를 생성할 수 없도록 막는 기능이 있다. 하지만 교묘하게 피하는 사람들이 있어 완전한 해결책이라 말하긴 어렵다.

강현주 걸그룹, 인플루언서 등 또 다른 딥페이크의 피해를 막기 위해 대중에게 알려진 얼굴을 걸러내는 기술을 충분히 만들 수 있겠지만 문제는 유명 인사가 앞으로도 계속 늘어날 텐데 그때마다 모델을 업데이트하는 것은 현실적으로 불가능하다. 무엇보다 이 딥페이크 문제는 이미지를 걸러내는 것만으로 해결되지 않는다. 딥페이크 성범죄는 한국 사회와 정치에 내밀하고 무거운 책임이 있다. 오랫동안 여성들이 한국 사회가 안전하지 않다는 문제를 제기해왔지만 정부와 정치계는 제대로 된 응답을 주지 않았다. 심지어 디지털성범죄가 10대 청소년으로 내려왔음에도 미성년 포르노에 대한 심각성이 사회적으로 체감되지 않는 느낌이다. 결과적으로 딥페이크 성범죄는 한국 사회의 총체적인 실패의 결과물과 같다. 기술을 이용해서 여성의 신체 이미지를 포르노로 제작해 누군가가 돈을 벌고 있다는 점, 성착취의 산물이 재화로 거래될 수 있다는 점이 가장 궁극적인 문제라고 생각한다. 청소년들이 범죄가 돈이 된다는 것을 알고 있다는 상황 자체가 시민사회에 막대한 악영향을 주고 있다. 더 궁극적이고 근원적인 대안이 시급하다.

왜 우리에게 딥페이크가 필요한가요?

인공지능 기술을 어느 방향으로 나아가게 할 것인가

관련영화

관련인물

씨네21 정기구독

씨네21 SNS

주목