Common Voice
Typ strony |
Zbiór danych mowy |
---|---|
Komercyjna |
Nie |
Data powstania |
19 czerwca 2017[1] |
Właściciel | |
Rejestracja |
Opcjonalna |
Wersje językowe |
Wiele języków, w tym język polski |
Strona internetowa |
Common Voice – projekt crowdsourcingowy zapoczątkowany przez Mozillę mający na celu stworzenia bezpłatnej bazy danych dla oprogramowań do rozpoznawania mowy. Projekt wspierają wolontariusze, którzy nagrywają próbki głosu i sprawdzają nagrania innych użytkowników. Transkrybowane próbki są gromadzone w bazie danych dostępnej na licencji publicznej CC0. Ta licencja zapewnia programistom możliwość korzystania z bazy danych bez ograniczeń i kosztów. Istnieje też nieoficjalna aplikacja na system Android.
Cele
[edytuj | edytuj kod]Common Voice ma na celu zapewnienie różnorodnych próbek głosu. Według Kathariny Borchert wiele projektów pobierało zbiory danych z radia lub zbiory danych, które niedostatecznie reprezentowały zarówno kobiety, jak i osoby z wyraźnym akcentem. Common Voice ma na celu rozwiązać te problemy[2].
Baza danych
[edytuj | edytuj kod]Do czasu opublikowania pierwszego zbioru danych 29 listopada 2017, ponad 20 000 użytkowników nagrało i sprawdziło 400 000 zdań, o łącznej długości 500 godzin[3].
Łącznie nagrano 9283 godzin próbek i sprawdzono 7335 godzin próbek w 60 językach, w tym 108 godzin nagrań w języku polskim (stan na 26 marca 2021)[4].
Przypisy
[edytuj | edytuj kod]- ↑ Daniel Kessler , Raising Our Common Voice For The Web – Internet Citizen [online], The Mozilla Blog, 19 czerwca 2017 [dostęp 2021-03-26] (ang.).
- ↑ Why do we gender AI? Voice tech firms move to be more inclusive [online], the Guardian, 11 stycznia 2020 [dostęp 2021-03-26] (ang.).
- ↑ Sean White , Announcing the Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Dataset [online], The Mozilla Blog [dostęp 2021-03-26] (ang.).
- ↑ Common Voice by Mozilla [online], commonvoice.mozilla.org [dostęp 2021-03-26] (ang.).