[테크크] 동영상 제작을 몇 분 만에…‘KT AI 휴먼 스튜디오’ 해보니

Home > > 기사내용

[테크크] 동영상 제작을 몇 분 만에…‘KT AI 휴먼 스튜디오’ 해보니

cnbnews 선명규기자 | 2023.11.29 11:16:47

생성형 AI가 복잡한 촬영·편집 대신해
인물선택→동작·배경·목소리 넣으면 끝
단 몇분이면 뉴스·광고·발표 영상 완성
가상인간 연령대가 2030뿐인건 아쉬워

‘KT AI 휴먼 스튜디오’에서 제공하는 템플릿(견본)으로 뉴스 영상을 제작한 모습. 가상인간인 아나운서가 진행을 하고 있다. ( KT AI 휴먼 스튜디오 갈무리)

테크놀로지의 발전이 눈부십니다. 하루만 놓쳐도 따라잡기 빠듯할 만큼 빠릅니다. 어렵다는 편견마저 있어 거리감이 느껴집니다. [테크크]는 편한 뉴스를 지향합니다. IT, 전자, 게임 등의 소식을 보다 접하기 쉽게 다듬고 정돈해 전합니다. 웃으며 가볍게 보셔도 좋습니다. <편집자주>

KT가 지난 15일 공개한 ‘KT AI 휴먼 스튜디오’는 초짜 연출자도 베테랑으로 격상시켜주는 웹서비스다. 영상 및 음성 생성 AI 기술이 기반이라, 몇 번의 선택 과정만 거치면 동영상 콘텐츠 하나가 뚝딱 완성된다. 출연자 캐스팅부터 시각적 요소를 배열하는 미장센 작업까지 단 몇 분이면 충분하다. 동영상 제작의 ‘치트키’인 이 스튜디오에 오픈 첫날 들어가 봤다.

드라마와 영화 감독들은 말하곤 한다. 섭외가 가장 힘들었다고. ‘KT AI 휴먼 스튜디오’에서 맨 처음 난관에 부딪히게 만든 것도 출연자다. 정확히는 섭외가 아니라 선정 때문. ‘새로운 프로젝트’를 누르고 입장하자 ‘가상인간’ 라인업이 떴다. 비교적 젊다는 공통점이 있으나 외모만큼은 전혀 다른 6명이 나열됐다. 남녀 반반이다.

선택 장애가 유발됐다. 한명씩 찍어 ‘스타일’을 확인하니 캐주얼, 정장, 드레스 같은 복식에 경찰, 소방관 등 특정 직업의 복장을 갖춘 모습이 연이어 나왔다. 아나운서, 강사, 쇼호스트 등 각자 어울릴만한 직업이 짧게 적혀 있기도 했다. 저마다 개성이 강해 고르기가 난해할 지경. 주연 발탁은 과연 어려운 일이었다.

AI 휴먼 캐릭터 6명(사진 위)과 그들의 다양한 성격을 보여주는 '스타일' 화면 ( KT AI 휴먼 스튜디오 갈무리)

제작 목적을 미리 정하면 수월

이때 필요한 것이 있으니, 목적 세우기다. 나중에 알았다. 무엇을 만들까를 미리 정하면 작업이 한결 수월해진다.

연출이 비교적 단조로워 보이는 뉴스를 창작하기로 했다. 말쑥한 정장 차림의 남성을 캐스팅했다. 다음은 가벼운 연기 지도를 할 차례. ‘동작’ 영역으로 넘어가니 “오른손 앞으로”, “왼손 내리기”, “큐 카드(Cue Card) 내리기” 등의 선택지가 떴다. 이 행동을 하며 동시에 말할 문장을 입력하자 대사와 몸짓이 전부 설정됐다. 인물의 표현 영역이 끝나는 순간. 다음 단계인 사각 화면을 꾸미러 넘어갔다.

‘배경’은 다양하게 적용할 수 있다. 크게 두 가지. 첫 번째 방법은 팔레트처럼 펼쳐진 색상 창에서 원하는 색을 골라 채우기다. 이때 단점은 단색만이 가능해서 다소 밋밋해 보일 수 있다는 것. 대안은 보유한 이미지를 업로드해서 설정하기다. 준비한 그래픽 이미지나 사진을 적용하면 보다 입맛에 맞는 콘텐츠를 완성할 수 있다. 사진폴더에서 뉴스에 어울릴만한 이미지를 골라 넣자 시각적 요소가 모두 완성됐다.

영상은 채워졌는데 어쩐지 허전했다. 소리가 비었다. 무성영화(無聲映畫)를 촬영할 게 아니므로 목소리도 채워야 한다는 사실을 간과했다. 눈을 돌렸다. 이 스튜디오는 동시녹음실을 보유하고 있었다. 이름은 ‘KT AI 보이스 스튜디오’이다.

여기서 제공하는 음성을 골라 입히면 되는데, 선택폭이 넓어 난감했다. 5가지 감정(화남·슬픔·중립·침착함·즐거움), 5개 언어(한국어·영어·중국어·일본어·스페인어), 말의 속도(느림·보통·빠름), 발화 높낮이(-5~+5) 등으로 보기가 세세했기 때문이다. 이윽고 각 영역에서 세부 값을 입력하고 ‘영상 생성’을 누르자 마침내 어디에도 없는 뉴스가 창작됐다.

영상을 요약하면 이렇다. ‘반듯한 정장 차림의 남성이 큐 카드를 들고 오늘의 뉴스를 읽으며 중요한 대목에서는 팔을 뻗어 강조한다. 목소리는 차분하며 말하는 속도가 빠르지 않아 귀에 쏙쏙 들어온다.’

품평하면, 인물은 전형적인 아나운서의 모습과 다르지 않았다. 실상은 가상인간이지만. 배경도 이질적이지 않았다. 인터넷 상에서 쉽게 구한 사진일지언정.

캐릭터에 어울리는 목소리를 감정, 언어, 속도, 발화 높낮이의 세세한 설정을 통해 적용할 수 있다. ( KT AI 휴먼 스튜디오 갈무리)

발표 영상 만들기에도 적합

제작 과정을 총평하면, 전체 분량에 따라 차이가 있겠지만 만드는 속도가 빨랐다. 진행 절차가 단순하기 때문이다. 대략 이 정도. 인물 설정→자막 삽입→배경 꾸미기→목소리 입히기의 네 단계만 거치니 금세 끝났다. 목표를 설정하지 않는 시행착오를 겪은 뒤, 손에 어느 정도 익자 1분짜리 영상을 만드는 데 10분이 채 걸리지 않았다.

눈에 띄는 점은 영상 제작 시 업로드 가능한 파일 형식이다. 흔한 이미지용 JPG뿐 아니라 프레젠테이션에 용이한 PPT와 PDF도 올라간다. 이는 회사나 학교에서 쓸 만한 콘텐츠까지 제작할 요건이 된다. 예컨대 가상인간이 자료에 손짓을 해가며 발표하는 영상을 쉽게 만들 수 있는 것이다.

단, 아쉬운 점은 ‘AI 휴먼 모델’(가상인간)의 다양성이다. 특히 나이가 그렇다. 연령대가 20대와 30대로 명시됐다. 그러니 선택의 폭이 좁을 수밖에. 가령 아이가 등장하는 캠페인이나 노인만이 목소리를 낼 수 있는 콘텐츠를 만들기에는 한계가 있다.

KT 측은 “새로운 AI 휴먼 캐릭터와 스타일이 매달 업데이트될 예정”이라고 했는데, 풍부한 캐릭터 확보가 앞으로 활용도를 높이는 키가 될 것으로 보인다.

‘KT AI 휴먼 스튜디오’는?

KT가 지난 2월부터 생성형 AI 전문 기업 씨앤에이아이(CN AI)와 기술 협력을 추진해 나온 결과물이다. 씨앤에이아이는 ‘KT AI 얼라이언스’의 파트너로 참여하고 있다.

‘KT AI 휴먼 스튜디오’ 속 모델은 모두 실존인물이 아니다. 이미지 생성 기술을 통해 만든 가상의 캐릭터이기 때문에, 초상권과 저작권 제약 없이 자유롭게 콘텐츠 제작에 활용할 수 있다. 영상 화질은 최대 4K UHD 해상도까지 지원해서 선명한 편.

KT AI/BigData사업본부 최준기 본부장은 “생성형 AI 기술의 발달로 시간과 비용 부담 없이 누구나 쉽게 콘텐츠 제작이 가능한 시대가 되었다”며 “KT는 생성형 AI 기술을 활용해 디지털 콘텐츠 제작 시장의 혁신을 선도해 나가겠다”고 말했다.

(CNB뉴스=선명규 기자)

☞ CNB뉴스 선명규 기자의 다른기사 보기

주요 기사

: 계양을 출마냐, 당대표냐…3년 만에 복당한 송영길, ‘…

: 철원문학관 개관, 상허 이태준과 철원 문학-예술 연구한…

: 삼성전자, KT·키사이트와 6G 핵심 주파수에서 초고…

: ‘자유’ ‘공화’ ‘미래’…국민의힘 새 당명은?

: “지방한전 전남광주전력공사 설립”…민형배 의원, ‘…

: 김해 화정초 'VEX 로보틱스 월드 챔피언십' 한국 대표…

: [잇(IT)야기] 삼성전자가 국가대표 ‘수면 개선’에…

: [게임 인사이드] 신작에 희비 갈린 게임업계…올해도…

주요기사

계양을 출마냐, 당대표냐…3년 만에 복당한 송영길, ‘지각변…

: 더불어민주당 전당대회 돈봉투 살포 의혹 항소심…

포토뉴스

: [포토] '봄의 선물' 인제 고로…

ⓒ 2004~2024 Copyright by CNBNEWS. All rights reserved. (주)CNB미디어 사업자등록번호 : 206-81-40424 전화 02-396-3733 FAX:02-396-7330
대표이사 : 황용철 서울시 서대문구 연희로 52-20 정기간행물 등록번호 : 서울아00105 (2005.11.7) 발행일 : 2005.4.11 CNB뉴스 발행인·편집인: 황용철, 편집국장 : 도기천,
청소년보호책임자 : 류창림, CNB뉴스에 실린 내용 중 제휴기사, 칼럼 등 일부 내용은 CNB뉴스의 공식 견해와 다를 수 있습니다.