[쫌아는기자들] 가우디오랩, 딥테크의 외로운 머니타이제이션

입력2024.04.08. 오전 8:01

기사원문

임경업 기자

추천

성별

말하기 속도

이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다.

@주3회 발행하는 뉴스레터 [쫌아는기자들] 입니다. 전문은 유료 구독자에게 공개. 유료 가입(https://page.stibee.com/subscriptions/158656). 일부 보는 무료 가입(https://page.stibee.com/subscriptions/143087)

가우디오랩은 독특하게 ‘소리’ 관련 딥테크 스타트업입니다. LG전자 TV 사운드 시스템을 개발한 오현오 박사와 국내 대표 음향 연구 개발자들이 모여 2015년 설립한 스타트업이죠. 우리가 모두 소리를 듣고 살기 때문에 크다면 큰, 사업적으로 니치하다면 니치한 시장을 타깃으로 했습니다. VR, AR, 영상 콘텐츠 등 소리를 쓰는 다양한 기업에게 기술을 팔겠다라는 비전이었죠. 2022년 첫 인터뷰는 이랬습니다.

[쫌아는기자들]지분 절반을 팀원에게 주고 재창업한 가우디오랩 오현오

그리고 2년이 지난 현재, 가우디오랩의 모습은 많이 바뀌었습니다. 최근 CES에서 소리 생성 AI를 내놓아 화제가 됐었고, 추진했던 VR 등 여러 음향 기기 사업은 소식이 없습니다. 매출은 여전히 수십억원대로, 제자리 걸음이기도 합니다. 이런 상황에서 가우디오랩을 만났습니다. ‘기술을 머니타이제이션하기 힘든, 어쩌면 씁쓸한 딥테크 스타트업의 숙명 같은 것 아닌가’하는 질문을 갖고요. 하지만 오현오 대표는 “전략 수정을 위한 과정”이었다고 합니다. 이제 가우디오랩은 ‘작은 연못의 큰 물고기’ 전략이라고요. 일본 노래방, OTT와 콘텐츠 크리에이터 시장 같은 아주 뾰족한 시장을 정교하게 타깃팅 하기 시작했습니다.

무엇보다 가우디오랩은 지금껏 개발하거나 영업했던 사업 아이템을 여섯개 이상 접었다고 합니다. 모두 인력과 돈, 시간을 투자했던 것인데도요. 스타트업 창업자의 숙명. “이 산이 아닌가봐”를 하고 조직원들을 끌고 다른 사업에 꾸준히 도전할 수 있었던 방법에 대해서도 물어봤습니다.

오현오 가우디오랩 대표. /남강호 기자

“살라도르 달리? 우리는 잭 폴리”, 소리 생성AI를 찾아 나델라 CEO가 온 이유는

-이번 CES에서 가우디오랩이 화제였습니다. 사티야 나델라가 직접 부스를 찾았더군요. 어찌된 일인가요.

“이번 CES에서 선보인 것 중 생성 AI는 데모였습니다. 전시 부스에 있던 중, 갑자기 마이크로소프트 관계자가 찾아와 가우디오랩의 사운드 생성 AI에 관심을 보이더군요. 처음 실무진이 먼저 데모를 봤고 다음엔 중간 관리자급이 와서 2차 시연을 봤습니다. 그러더니 그 자리에서 “VIP가 (부스에) 올 수도 있다”고 하더군요. 그리고 몇 시간 지나고 나서 사티야 나델라 MS CEO가 부스를 찾았습니다.”

-사운드를 생성하는 AI 이름이 폴리라. 독특하네요. 사티야의 반응도 궁금합니다.

”폴리, FALL-E입니다. 사운드 엔지니어링 업계에선 ‘폴리 아티스트’라는 분들이 있습니다. 광고나 드라마, 영화에서 효과음들 있잖아요? 그걸 만드는 폴리 아티스트라고 합니다. 이 일을 처음으로 전문적으로 만든 분이자 선구자 이름이 폴리(Foley)였거든요. 말발굽 소리나 총소리부터, 한국엔 김벌래라는 분이 유명하죠. 1970년대 펩시 광고에 펩시 특유의 병뚜껑 따는 소리를 녹음해 보냈는데 백지수표를 받은 분이죠. 당시 콘돔을 터뜨리거나 바람을 빼면서 녹음했대요. 이런 전문적인 기술과 노하우를 기반으로 소리를 생성한다는 의미를 담았죠.

MS와 오픈AI의 이미지 생성 AI ‘달(DALL)-E’가 화가 달리의 이름에서 따왔듯이, FALL-E, 폴리는 폴리의 이름을 딴 것도 있고요. 사티야 CEO에게 “너희는 달-E, 우리는 폴-E 조합이 괜찮다”고 말했습니다. 물론 데모 시연도 봤고요. 몇 분 정도의 짧은 시간이었지만 나델라가 우리 기술에 상당한 흥미를 보였다고 봅니다.”

-AI가 영상을 스스로 파악해서 소리를 다는 것인가요? 사람이 설명을 해야 하나요?

”현재 폴리의 기술 수준은 텍스트 설명(description)을 입력하면 그에 맞는 소리를 생성하는 ‘Text-to-Audio’ 단계에 입니다. 현재로서는 이 방식이 가장 효과적이고 효율적입니다. 우선 주어진 이미지를 분석해 설명 텍스트(description)를 생성하는 다른 AI 솔루션을 활용합니다. 그렇게 만들어진 설명 텍스트를 폴리가 이해할 수 있는 형태로 변환하는 사전학습(pre-training) 과정을 거칩니다. 이렇게 하면 이미지를 입력했을 때 폴리가 적절한 소리를 생성하는 원리죠. 결국 영상의 분절적인 장면, 이미지를 기반으로 소리를 생성하기 때문에, 소리와 영상 간 싱크를 맞추는 기술까지는 완성되지 않았습니다. 강아지가 짖는 타이밍에 정확히 짖는 소리를 내는 식의 구현은 좀 더 시간이 필요한 상황인 것이죠. 앞으로 풀어나가야 할 숙제입니다.”

-소리와 이미지에 매칭되는 여러 DB가 있어야 할텐데요. 그리고 이 데이터가 어떻게 원하는 소리로 될 수 있는 것인지 기술 원리가 궁금합니다.

“텍스트와 그에 매칭되는 소리 데이터를 대량으로 확보해 이를 폴리에 주입하는 것입니다. 방대한 양의 텍스트-소리 쌍을 학습시키면, 새로운 텍스트가 들어왔을 때 그와 유사한 텍스트에 대응되는 소리를 찾아 내보내는 식으로 동작하게 되는 거죠. 더, 기술적으로 들어가면 폴리는 디퓨전(Diffusion) 모델을 사용하고 있습니다. Stable Diffusion 같은 최신 이미지 생성 AI에서도 활용되는 방식인데요. 음성 생성에서는 화이트 노이즈에서 출발해 마치 조각상을 깎아나가 듯이 점진적으로 소리를 다듬어 나가는 식으로 적용했습니다. 처음에는 거친 수준의 소리에서 시작해, 학습된 데이터를 바탕으로 텍스트 묘사에 맞는 소리에 점점 가깝게 다듬어 나가는 거죠. 마치 대리석을 깎듯이 화이트 노이즈를 조금씩 가공하다 보면, 어떤 텍스트에는 강아지 짖는 소리가, 어떤 텍스트에는 기차 소리가 대응되는 식으로 진화하는 것이죠.”

-경쟁 기업은 없습니까. 알고보니 빅테크가 이 기술을 보유하고 있었다던가...

”본래 영국의 서리 대학교가 이 연구를 많이 했습니다. 그리고 메타가 ‘오디오 젠’이라는 소리 생성 AI를 오픈소스로 뿌렸지만, 널리 퍼지진 않았죠. 그리고 최근엔 일레븐 랩스라는 미국의 스타트업도 소리 생성 AI를 개발하고 있더군요.”

CES 2024 가우디오랩 부스에 찾은 사티야 나델라 MS CEO에게 기술을 설명하고 있는 가우디오랩 이국진 부사장). /가우디오랩 제공

에디슨 스피커와 CD의 혁신에서 멈춘 오디오 혁신, 다시 찾아오나

-오디오 시장은 시장 자체가 별로 크지 않다는 인식을 줍니다. 디바이스도 에어팟이 제패한 듯 하고요. 뭐랄까, AI나 전기차, 스마트폰처럼 충격을 줄만한 기술이 나오지 않는 것이죠.

“오디오의 임팩트가 이미지나 영상에 비해서는 조금 작게 인식되는 면이 없지 않아 있죠. 화려한 비주얼로 즉각적인 관심을 끄는 건 쉽지만, 소리만으로 그만한 임팩트를 주긴 쉽지 않으니까요. 하지만 더 큰 이유는 오디오 분야 전문 인력 풀 자체가 굉장히 작다는 데 있습니다. 물론 누구나 별도의 배경지식 없이 뛰어들 순 있겠지만, 그 경우에도 이미지/영상 분야에 비해 참고할 만한 선행 연구나 오픈 소스 자료가 턱없이 부족한 상황이에요.

도메인 지식을 갖춘 전문가 풀로 보자면, 이를테면 영상 분야에 100명의 전문가가 있다 치면 오디오 분야에는 1명 있을까 말까 한 수준입니다. 세계적으로도 오디오 쪽으로 공학 박사급의 인재를 다 합쳐도 3000~4000명 정도뿐입니다. 영상을 그에 비해 여러 산업 현장에서 활동한 인력도 훨씬 많기 때문에 그 풀 차이가 크죠. 가우디오랩이 박사급 오디오 전문가 인력 9분이 팀원입니다. 전자 대기업, 음향 전문기업이 아닌 스타트업 기준으로 정말 많은 전문 인력이 모여 있는 셈이죠.”

-그렇다면 계속 악순환의 고리 아닌가요. 기술적 돌파구를 통해 돈을 버는 딥테크 스타트업에겐 이 시장이 숙명적으로 어렵다는 셈인데요.

“말씀하신대로 오디오 시장에서 차별화를 이루는 게 참 어려운 게 사실입니다. 오디오 기술은 수십 년째 정체된 느낌이 없지 않아 있거든요. 이미지나 영상 분야만 봐도, 디스플레이 기술은 브라운관에서 PDP, LCD를 거쳐 OLED까지 눈부신 발전을 이어왔죠. 영상 해상도나 화질도 지속적으로 진화하고 있고요. 그에 비하면 정작 소리를 재생하는 스피커는 에디슨 시절 그 코일과 자석의 진동이라는 원리에서 크게 벗어나지 못한 채 100년 가까이 제자리걸음을 하고 있는 셈이에요. 오디오 신호 자체도 마찬가지입니다. 1982년에 개발된 CD 포맷이 아직도 최고 음질의 기준으로 여겨지는 현실이죠. 결국 오디오 분야에서는 근본적인 포맷의 혁신이나 패러다임의 전환이 더디게 이뤄지다 보니, 연구를 해도 새로운 돌파구를 마련하기가 여간 어려운 게 아닙니다.

반면 이미지나 영상 분야는 계속해서 새 판이 열리고 있어요. OLED가 상용화되면 관련 소재나 화질을 연구할 새로운 기회가 생기고, 해상도가 4K에서 8K로 점프하면 콘텐츠 제작 기술도 한 단계 도약하게 되죠. 최근엔 AR 기기에 마이크로 LED를 접목한다는 식으로 계속 혁신의 바람이 불고 있습니다. 이런 분위기 속에 영상 분야는 우수 인재들이 몰리고 활발한 연구가 이뤄지는 선순환이 만들어집니다. 반면 오디오계에서는 이렇다 할 먹거리가 없다 보니 인재 풀도 점점 줄어드는 악순환에 시달리는 거죠. 이게 지금 현실입니다.

그나마 최근 AI 기술의 발전이 이 악순환의 고리를 끊어줄 실마리가 될 것이라는 기대입니다. 다만 음성 AI 개발에 필수적인 데이터가 충분하지 않은 게 큰 걸림돌이긴 합니다. 이미지의 경우 캡션이 달려 태깅된 데이터를 어렵지 않게 구할 수 있어 AI 학습이 용이한 편인데, 정작 오디오는 ‘강아지 짖는 소리’라는 식의 라벨이 붙은 데이터를 구하기가 하늘의 별따기죠.”

-그러면 가우디오랩은 폴리에 사용된 데이터 DB를 어떻게 확보했나요.

”2022년 웨이브랩이라는 국내 사운드 스튜디오를 인수했습니다. 지난 20년 동안 250편 넘는 영화의 소리를 담당했던 곳이고요. 과거에는 영화를 만들어서 최종 필름을 보내면 이 안에 들어간 효과음이나 소리는 쓸모없는 데이터였다면, 이제는 황급 데이터입니다. 이 라이브러리 보유 유무에 따라 AI의 수준이 갈리죠. 미국에 이런 라이브러리를 파는 회사도 있어서, 계약을 하고 DB를 사용하고 있습니다.”

퀄컴, 애플이 계속 사운드 관련 제품을 내놓는 이유...“소리가 차별화 포인트”

-소리 제작에 AI를 쓴다는 것은 결과적으로 AI가 생산성을 대단히 높여줄 수 있기 때문일겁니다. 왜냐면 결국 소리란 우리가 AI에게 우리가 인식하거나 예상가능한 범위 밖의 일을 기대하는 것이 아니라, 익숙한 소리를 사람과 비슷한 수준으로만 내면 되니까요.

“폴리아티스트들이 만들어내는 소리 제작 과정은 생각보다 훨씬 까다롭고 공이 많이 드는 작업이에요. 예를 들어 말발굽 소리가 필요하다면 제주도에 가서 직접 말발굽 소리를 녹음해오는 것이 제일 좋을 겁니다. 문제는 비해 영화 제작비에서 사운드에 투자되는 비중은 1% 수준밖에 안되거든요. 그 적은 예산을 가지고 폴리아티스트, 음향감독 등이 나눠가져야 하다 보니 충분한 투자가 어렵고요.

둘째는 우리가 기대하는 소리, 콘텐츠에서 실감나는 소리랑 실제 소리가 다를 수도 있습니다. 영화 ‘최종병기 활’에 나오는 활 소리를 실제 활을 쏜 소리가 아닙니다. 물 뿌리는 고무 호수를 갖고 그걸 격하게 움직이는 소리를 녹음한 것입니다. 실제 활에선 우리가 상상하는 ‘쉬익~’ 이 소리가 거의 안 나거든요. 이런 노하우가 필요한 것에 비해 사운드에 투자되는 소리가 여전히 작죠.

반면 AI를 활용하면 훨씬 적은 비용으로 다양한 효과음을 손쉽게 만들어낼 수 있습니다. 기술력만 확보된다면 소리의 퀄리티를 떨어뜨리지 않으면서도 제작 단가를 혁신적으로 낮출 수 있어요. 동시에 누구나 AI를 활용해 직접 소리를 생성할 수 있게 되니 접근성 측면에서도 엄청난 변화가 생길 겁니다. 독립영화 제작자처럼 폴리아티스트를 고용할 여력이 안 되는 이들도, 블로거나 유튜버 같은 1인 크리에이터들도 AI 덕분에 손쉽게 효과음을 입힐 수 있게 되는 거죠. 물론 아직 기술적으로 보완해야 할 부분이 있긴 하지만, 영상과 소리를 완벽히 싱크시키는 것도 조만간 가능해질 겁니다.”

-그렇다면 언제 폴리를 사용해 볼 수 있을까요?

“현재 클로즈드 베타 상태고요, 올해 상반기 중 오픈 베타를 기대할 수 있을 겁니다.”

-오디오 시장이 작다고 하더라도, 얼마전 퀄컴이 오디오 관련 반도체와 플랫폼을 새로 냈습니다. 삼성전자나 애플에서 사운드 관련 기기나 기술이 계속 나오기도 하고요. 애플이나 퀄컴 같은 대형 기업들이 오디오 부문에 지속적으로 투자하는 이유는, 결국 차별화된 경쟁력을 확보하기 위해서라고 봅니다.

“오디오 관련 기술은 사실 CD가 나온 80년대 초반부터 이미 충분한 퀄리티를 확보했다고 할 수 있어요. 그 이후로는 샘플링 레이트를 48kHz에서 96kHz, 192kHz로 올리는 식으로 스펙 경쟁을 해왔죠. 무선 이어폰으로 고음질 음원을 스트리밍해 준다든가 하는 식으로요. 그런데 이런 차이는 대부분의 사람들이 체감하기 어려운 수준이에요. 블라인드 테스트를 해보면 일반인들은 구분조차 못하는 경우가 많죠. 결국 오디오파일들의 마음을 사로잡기 위한, 일종의 마케팅인 셈이죠. 믿음의 영역이지만…여기에 설득되어서 고스펙 소리를 추구하기 시작하면 192kHz 음원을 찾아가야 합니다. 그러면 데이터 처리량이 4배가 되고, 필요한 컴퓨팅 파워도 4배, 사양도 4배가 되야 하는 것이죠. 결국 제품 원가 상승으로 이어질 수밖에 없어요.

그럼에도 불구하고 퀄컴 같은 칩 제조사들이 끊임없이 오디오 관련 신제품을 내놓는 이유는, 스마트폰 시장에서 차별화할 수 있는 포인트가 많지 않기 때문이에요. 이미 플래그십 제품들의 성능이나 디자인이 평준화되다 보니, 오디오 쪽에서나마 약간의 우위를 점하려는 것이죠. 스파트폰을 보세요. 이제 더 이상 새로운 기능이나 기술이 투입되기 어렵습니다. 이럴 때 사운드 기술로 차별화를 시도하는 것이죠. 애플이 대표적입니다. 로 애플은 오래 전부터 오디오 품질을 강조해 왔고, 그래서인지 소비자들 사이에는 ‘좋은 소리를 듣고 싶으면 애플’이라는 인식이 자리 잡혔죠. 스펙이나 숫자가 아니라 컨셉과 디테일로 승부를 한 케이스고요.”

-소리 생성 AI가 널리 보급돼 챗GPT처럼 구독료를 벌기엔 아직 기술 수준이 그 정도에 도달하지 못한 것 같고요. 기기 시장이 빅테크 중심으로 굴러간다면, 가우디오랩은 다른 시장을 찾아야할 수도 있습니다.

“생성 AI가 아닌 시장, 가우디오랩이 중요하게 보는 시장은 노래방과 콘텐츠 시장입니다. 개발 중인 AI 기술을 활용하면 방송국에서 음원 저작권 문제로 고민하는 부분들을 해결해 줄 수 있어요. 가령 특정 장면에 삽입된 음원을 저작권 걱정 없이 자유롭게 교체할 수 있는 기술 같은 것들이죠. 노래방 솔루션의 경우, 일본 업체와 협업을 논의 중입니다. 그런데 기존 한국과 일본의 노래방 업체 음원은 ‘미디 파일’이라 부르는 직접 녹음 및 제작곡입니다. 저작권 문제로 사용에 한계가 있죠. 가우디오랩은 스트리밍 음원을 AI로 반주 버전으로 바꿔주는 기술을 개발 중입니다. 이를 통해 저작권 걱정 없이 차 안에서 노래방을 즐길 수 있게 하는 거죠.

음악을 듣는 두 가지 주요 플랫폼이 있다면 개인 오디오 기기와 자동차라고 할 수 있는데요. 특히 운전석은 다른 사람 방해 없이 소리를 크게 들을 수 있는 독특한 공간이잖아요. 자율주행차 시대가 오면, 차 안이 엔터테인먼트 공간으로 재편될 텐데, 그 때 영상 콘텐츠는 멀미 유발 등의 한계가 있지만 오디오 콘텐츠는 제약이 없어요. 차 안을 노래방처럼 쉽게 노래를 부르는 시대가 올 것이고, 자동차 제조사 입장에서도 소프트웨어로 새로운 수익원을 만들어야 하는 상황입니다. 자동차에서도 AI 기반 사운드 기술을 필요로 할 겁니다.”

테스트 중인 폴리의 서비스 화면. /가우디오랩 제공

쫌아는기자들이 만드는, 뉴스레터 [스타트업]은 주 3회 발행하는 유료레터입니다. 오늘의 무료 콘텐츠는 여기까지 입니다. 쫌아는기자들은 네이버나 구글에선 못보는 스타트업 속내와 스토리를 전달합니다. 순수하게 유료 구독자들의 구독료로만 운영합니다. 좋은 콘텐츠 만들겠습니다, 많은 응원 바랍니다. 감사합니다.
@아래는 전문에 있는 ‘질문’과 ‘그래픽’ ‘사진’ 입니다. 유료 구독하면 전문은 물론이고 과거 3년간 모든 콘텐츠를 볼 수 있습니다.

K-콘텐츠의 해외 수출, ‘음원이 발목 잡을 때’를 노린 기술 솔루션

-국내 방송사와 OTT 플랫폼에 음악 저작권 해결 솔루션을 판매했습니다. 자신들이 만든 콘텐츠에 음원 저작권 문제가 생겼다고요?

-콘텐츠 수출 시장을 노린 기술 솔루션이라. 유튜버들도 음악 저작권으로 영상을 재편집하던데요.

-그래도 이런 독특한 시장의 룰은 한국으로 제한되지 않나요. 미국이나 일본의 메이저 방송사나 콘텐츠 제작 기업에 팔아야 ‘큰 돈’을 벌 수 있을 겁니다.

영상 콘텐츠의 여러 음원과 소리를 분리해 교체할 수 있는 프로그램, 가우디오 스튜디오 프로./가우디오랩 제공

일본 가라오케 시장은 왜?

-일본 가라오케 시장을 노리고 있습니다. 일본 노래방 시장이 특별한 기술적 니즈가 있나요?

-기술을 이용해서 과점 시장을 깨고 더 저렴한 노래방 반주를 만든다는 것이군요. 그래도 음원에 대한 복잡한 저작권 이슈가 있을 수도 있습니다.

-글로벌 노래방 시장의 규모가 어떻게 되나요. 일본 시장 규모도요.

사운드 딥테크 스타트업의 숙명인가

-작년 매출은 36억원이었습니다. 창업 9년차, 많은 사업들이 수익화에 실패한 것 아닌가요.

-오디오 기술의 최종 디바이스는 애플, 소니, 삼성(하만)… 콘텐츠는 유튜브(구글), 넷플릭스와 음원도 다시 애플, 스포티파이, 카카오 등. 오디오 기술은 결국 최종 제품을 파는 초대형 전자기업이나 서비스 플랫폼 및 운영 테크 업체에 의존할 수 밖에 없는 숙명을 갖고 있습니다.

-특정 사업 모델이나 제품을 접으면 그에 투여한 기술을 버려야 하거나, 그 기술이 활용처를 찾기 어려운 문제가 따릅니다.

가우디오랩이 사업 초기 도전했던 VR 사운드 관련 기술을 시연하는 모습. /조선일보 DB

가우디오랩 조직이 “이 산이 아닌가봐”를 여섯번 넘게 할 수 있었던 이유

-지금까지 몇 개의 사업 아이템을 접었나요

-이 정도면 회사의 구성원들이 크게 동요할 법도 합니다.

-돈이 안 된다고 특정 제품이나 서비스를 접으면, 그걸 만들었던 팀원과 임원이 스스로 회사를 나가거나 책임을 지기도 합니다. 그런데도 가우디오랩은 서비스가 접혔다고 자발적으로나, 타의로 회사를 나간 분이 없다고 했습니다.

-사업을 접고, 신사업을 위한 계급장 없는 무제한 토론이라. 그렇다면 대표님의 의견과 정반대로 출시된 서비스가 있어야 진짜 ‘자유토론’일 겁니다.