KT가 ‘목소리 찾기’ 프로젝트로 탄생한 세상에 하나뿐인 목소리를 참가자들에게 전달했다고 26일 밝혔다. 참가자의 목소리는 가족들의 노력과 KT의 인공지능 기술로 완성됐다.
목소리 찾기는 청력을 잃었거나 사고나 질병 등으로 후천적으로 목소리를 잃은 농인의 목소리를 만들어 주는 프로젝트다. 이 프로젝트는 삶에 도움이 되는 기술로 일상의 불편함을 덜고자 하는 고민에서 출발했다. KT는 지난 4월 참가자 20명을 선발하고 목소리 구현에 들어갔다.
KT는 국내 최고 수준의 개인화 음성합성기술(P-TTS)을 보유하고 있다고 설명했다. 개인화 음성합성기술은 딥러닝 기반 학습을 통해 사람의 목소리를 만드는 기술이다.
이번 목소리 찾기 프로젝트에서 KT는 국내 최초로 본인 목소리 학습 데이터 없이 목소리를 구현했다. 기존 음성합성기술은 한 문장이라도 본인 목소리 녹음이 필요했으나, KT는 이번 프로젝트에서 본인의 목소리를 내기 어려운 농인들을 위해 가족 목소리 데이터를 이용해 목소리를 만들었다.
참가자의 목소리는 참가자 동성 가족의 음성 데이터에 참가자만의 음색, 어조, 말투가 반영됐다. KT는 성별, 나이, 구강구조 등 개인의 특성을 AI 엔진으로 분석해 참가자만의 특색 있는 목소리를 만들었다. 각 참가자의 동성 가족 구성원들은 참가자의 목소리 구현을 위해 1000문장을 녹음했고, 인당 평균 6시간이 소요됐다.
KT는 가족의 목소리 데이터와 구강구조 데이터를 양 축으로 두고 목소리 모델링을 진행했다. 구강구조가 유사한 형제·자매가 녹음을 진행한 경우에는 구현된 목소리 값의 오차가 적어 목소리 구현이 비교적 원활했으나, 부모님이 목소리 녹음을 진행한 경우엔 새로운 목소리와 구강구조의 오차가 커 새로운 모델링을 진행해야 하는 경우가 많았다. 또 나이에 따른 억양 차이도 보정이 필요했다.
KT는 참가자들이 구현된 목소리로 언제나 소통할 수 있도록 전용 모바일 애플리케이션 ‘마음 Talk(이하 마음 톡)’을 개발했다. 마음 톡은 목소리 찾기 참가자와 그 가족·지인들만 이용할 수 있는 서비스다.
마음 톡은 농인이 앱에 입력한 텍스트를 KT GPU 클라우드 플랫폼에 전달해 참가자 각각의 목소리로 바꾼다. 이 과정에서 GPU로 수천만 번의 연산을 진행해 음성을 만든다. 실제 연산 시간은 1초 내외로 사용자가 체감하는 지연 없이 실시간으로 대화할 수 있다. 자주 쓰는 문장은 저장해뒀다가 필요할 때 즉시 재생을 눌러 상대방에게 음성을 전할 수 있다. 또 농인과 건청인이 한 공간에 있을 때 대화하는 것도 도와준다.
마음 톡의 기능 중 ‘내 목소리 음성·영상통화’ 이용하면 농인은 문자를 하는 방식으로 소통하고 상대방은 일반 음성통화하는 것처럼 대화를 나눌 수 있다. 음성통화 중간에 통화를 끊지 않고 영상통화로 전환이 가능해 수어와 목소리를 함께 사용해 소통할 수 있다.
KT는 앞으로 2년 동안 전용 앱을 지원하고, 사용자의 불편함을 점검해 지속적으로 앱을 업데이트할 예정이다.