Common Voice

Common Voice
Typ strony	Zbiór danych mowy
Komercyjna	Nie
Data powstania	19 czerwca 2017
Właściciel	Fundacja Mozilla
Rejestracja	Opcjonalna
Wersje językowe	Wiele języków, w tym język polski
	Strona internetowa

Common Voice – projekt crowdsourcingowy zapoczątkowany przez Mozillę mający na celu stworzenia bezpłatnej bazy danych dla oprogramowań do rozpoznawania mowy. Projekt wspierają wolontariusze, którzy nagrywają próbki głosu i sprawdzają nagrania innych użytkowników. Transkrybowane próbki są gromadzone w bazie danych dostępnej na licencji publicznej CC0. Ta licencja zapewnia programistom możliwość korzystania z bazy danych bez ograniczeń i kosztów. Istnieje też nieoficjalna aplikacja na system Android.

Cele

Common Voice ma na celu zapewnienie różnorodnych próbek głosu. Według Kathariny Borchert wiele projektów pobierało zbiory danych z radia lub zbiory danych, które niedostatecznie reprezentowały zarówno kobiety, jak i osoby z wyraźnym akcentem. Common Voice ma na celu rozwiązać te problemy^[2].

Baza danych

Do czasu opublikowania pierwszego zbioru danych 29 listopada 2017, ponad 20 000 użytkowników nagrało i sprawdziło 400 000 zdań, o łącznej długości 500 godzin^[3].

Łącznie nagrano 9283 godzin próbek i sprawdzono 7335 godzin próbek w 60 językach, w tym 108 godzin nagrań w języku polskim (stan na 26 marca 2021)^[4].

Przypisy

↑ DanielD. Kessler DanielD., Raising Our Common Voice For The Web – Internet Citizen [online], The Mozilla Blog, 19 czerwca 2017 [dostęp 2021-03-26] (ang.).
↑ Why do we gender AI? Voice tech firms move to be more inclusive [online], the Guardian, 11 stycznia 2020 [dostęp 2021-03-26] (ang.).
↑ SeanS. White SeanS., Announcing the Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Dataset [online], The Mozilla Blog [dostęp 2021-03-26] (ang.).
↑ Common Voice by Mozilla [online], commonvoice.mozilla.org [dostęp 2021-03-26] (ang.).

[1] DanielD. Kessler DanielD., Raising Our Common Voice For The Web – Internet Citizen [online], The Mozilla Blog, 19 czerwca 2017 [dostęp 2021-03-26] (ang.).

[2] Why do we gender AI? Voice tech firms move to be more inclusive [online], the Guardian, 11 stycznia 2020 [dostęp 2021-03-26] (ang.).

[3] SeanS. White SeanS., Announcing the Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Dataset [online], The Mozilla Blog [dostęp 2021-03-26] (ang.).

[4] Common Voice by Mozilla [online], commonvoice.mozilla.org [dostęp 2021-03-26] (ang.).

[1]

[2]

[3]

[4]