“AI 학습 데이터 깨끗하게 해줘요” 19조원 가치된 스타트업

입력
기사원문
오로라 기자
본문 요약봇
성별
말하기 속도

이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다.

美 데이터 레이블링 업체 ‘스케일AI’ 창업 8년 만에

일러스트=조선디자인랩·Midjourney

지난 5월 말 한 스타트업이 미국 샌프란시스코 에어비앤비 소유 건물의 3개층을 임차하는 계약을 체결했다. 축구장 2.5개 규모 대형 임차로, 부동산 시장이 침체돼 있던 샌프란시스코에서 올해 들어 가장 큰 규모의 계약 건 중 하나로 꼽힌다. 이 사무실을 임차한 업체는 ‘스케일 AI’. ‘인공지능(AI) 시대의 황금’으로 불리는 데이터를 분류하고 정리하는 이른바 ‘데이터 레이블링’을 하는 업체다.

스케일 AI는 현재 실리콘밸리에서 가장 주목받는 스타트업 중 하나로 꼽힌다. 지난 5월 아마존·메타·엔비디아 등 AI 빅테크와 유명 벤처투자자(VC)들에게서 138억달러(약 19조원)의 기업 가치를 인정받으며 10억달러(약 1조3900억원)의 투자를 유치하는 데 성공했다. 2016년 설립된 이 회사가 지난 8년간 받은 누적 투자금은 6억달러. 누적 투자금의 2배에 가까운 돈을 한 번에 거머쥔 것이다. 회사 지분 15%를 갖고 있는 알렉산더 왕 최고경영자(CEO)는 27세 나이에 ‘세계 최연소 억만장자’로 등극했다. 실리콘밸리가 중국계 이민자의 아들이 설립한 이 회사에 주목하는 이유는 뭘까?

그래픽=박상훈

AI 산업 ‘3D 직업’ 도맡아

스케일AI가 주목한 것은 거대한 데이터 시장이다. 건강한 음식을 먹어야 건강해지는 것처럼 AI는 양질의 데이터를 학습해야 제대로 된 답을 내놓는다. 오염된 데이터를 쓰면 AI는 필연적으로 편견이나 오류가 담긴 저질 대답을 내놓게 된다.

AI에 학습시킬 데이터를 양질로 가공하는 ‘데이터 레이블링’은 사람의 손을 거쳐야 한다. 사람이 온종일 컴퓨터 앞에 앉아서 오류가 있는 데이터를 분류하고, 음란·폭력 등 불건전한 내용이 담긴 영상이나 사진을 보면서 삭제한다. 데이터 레이블링이 AI 산업의 ‘3D 업종’이라고 불리는 이유다. 이 때문에 오픈AI·구글·메타 같은 빅테크들은 이런 작업을 직접 하기를 꺼린다.

스케일AI는 아프리카·동남아시아 등에서 저임금 인력을 고용해 데이터를 정리하고, 이를 대기업에 판매한다. 사업 초기엔 리프트·에어비앤비 등이 주요 고객이었지만, 지금은 대부분 수익이 오픈AI·메타 등 AI 기업들에서 나오고 있다. 거대 AI 개발 경쟁이 불붙으면서 양질 데이터 수요도 급증하는 만큼, 이 회사의 올해 매출은 지난해(3억3000만달러)의 3배 수준인 10억달러를 돌파할 것으로 예상되고 있다.

이 회사를 창업한 알렉산더 왕은 중국에서 미국으로 이민을 온 물리학자 집안에서 태어났다. 어릴 적부터 수학 올림피아드에 출전하는 등 전형적인 이과 영재였다. MIT 컴퓨터공학과에 입학했으나, 중퇴하고 19세 나이에 스케일AI를 창업했다. 당시 여름 인턴으로 일했던 지식 문답 사이트 ‘쿼라’에서 만난 루시 궈와 함께였다.

‘스케일AI’에 처음 돈을 대준 곳은 실리콘밸리 최대 액셀러레이터(창업 지원 회사)인 와이콤비네이터였는데, 당시 이곳의 대표가 샘 올트먼 오픈AI CEO였다. 이때 이어진 인연으로 왕 CEO는 코로나 팬데믹 당시 올트먼과 몇 달을 함께 지낼 정도로 막역한 사이가 됐다. IT 전문 매체 디인포메이션은 “(올트먼과의 인연으로) 그는 실리콘밸리 상위층에서의 입지를 공고하게 다졌고, 강력한 인맥으로 스케일AI의 성공을 뒷받침했다”고 전했다.

알렉산더 왕 스케일AI 최고경영자(CEO)가 지난 5월 미국 뉴욕에서 열린 한 자선행사에 참석해 기념 촬영을 하고 있다. 세계 최연소 억만장자인 그는 올해 ‘억만장자의 사교모임’으로 불리는 선밸리 콘퍼런스에도 초청받았다. /알렉산더 왕 페이스북

‘언제까지 성장할까’ 우려도

다만 스케일AI의 지속적인 성장에 의문을 표하는 시각도 있다. 특히 이 회사가 아프리카 등에서 원격으로 데이터 레이블링에 참여하는 인력들에게 극히 낮은 임금을 지불하는 데다, 임금 체불도 많다는 비판에 직면해 있다. 아프리카·동남아의 프리랜서들이 살인과 아동 학대, 강간 같은 내용을 데이터에서 제거하는 일을 매일 8시간씩 하고 있는데도 제대로 된 돈을 받지 못하고 있다는 것이다.

8일 디인포메이션은 “스케일AI는 AI 회사를 위한 소프트웨어를 구축하는 업체처럼 보이지만, 핵심은 AI 학습을 위해 인력을 공급하는 것”이라며 “지금 같은 성장을 계속하기는 어려울 것으로 본다”고 했다. 개발도상국의 프리랜서들에게 제대로 된 비용을 지불하고, 향후 AI 모델의 발전으로 더 높은 수준의 데이터 레이블링을 수행할 고학력자들을 고용하게 되면, 지금 같은 수익을 내기 어렵다는 것이다.

데이터 레이블링(data labeling)

☞인공지능(AI)을 훈련하는 데 쓰이는 데이터 모음을 분류하고 보강하는 작업. 예컨대 특정 이미지에 나온 동물이 말인지 소인지, 오디오 녹음에서 들리는 음성이 어떤 단어를 포함하는지 정리하고, 음란·폭력적 내용을 데이터 모음에서 제거.

기자 프로필

이 기사는 언론사에서 IT 섹션으로 분류했습니다.
기사 섹션 분류 안내

기사의 섹션 정보는 해당 언론사의 분류를 따르고 있습니다. 언론사는 개별 기사를 2개 이상 섹션으로 중복 분류할 수 있습니다.

닫기
이 기사를 추천합니다
3