Tanítsd meg a számítógépnek a hangodat. A Common Voice weboldalon gyűjtik össze a hangmintákat, amelyek alapján a számítógép a hangfelismerést megtanulja. Minél több, minél változatosabb a hangokat hall a gép, annál pontosabb lesz a felismerés is. A weboldalon keresztül bárki hozzájárulhat a felismerés sikeréhez, ehhez csak fel kell olvasni a mondatokat. Aki nem tudja a hangját adni a projekthez, az ellenőrizheti mások mintáit. Fontos, hogy hang és a szöveg pontosan egyezzen. Az oldal egyszerűen használható, magyarra is lefordított.
A felvétel készítéséhez és ellenőrzéséhez csak az alábbi lépéseket kell tenned:
Regisztrálj a https://commonvoice.mozilla.org/hu/ oldalon.
Válaszd ki a magyar nyelvet és kattints a Közreműködés menüpontra vagy a mikrofon ikonra, majd a piros mikrofon melletti "Segítsen nekünk elérni..." feliratra a felvételhez.
Ellenőrizni a zöld lejátszó melletti feliratra kattintva lehet.
Ha csak ellenőrizni szeretnél, akkor regisztráció után használd a zöld lejátszó melletti feliratot. Bármi kérdésed van, a weboldal alján a mentőövre kattintva találod meg a gyakran ismételt kérdéseket.
Minden felvétel nagy segítség és pontosabbá teszi a később tanított beszédfelismerőt.
Ha fejlesztő vagy, időnként látogass el az adatkészlet gyűjteménybe, hogy lásd a készenlét állapotát. A DeepSpeech modullal taníthatod saját beszédfelismerő rendszeredet.
Az emberi beszédfelismerésben kulcsfontosságú a Gépi tanulás és a Mesterséges intelligencia. Hangfelvételeket és a hozzájuk tartozó leírásokat mutatva, kellően sok minta esetén a számítógép képes megtanulni a hang és a szöveg közötti összefüggéseket. Ezen összefüggéseket hívjuk a gépi tanulás modelljének. Ahogy mi is gyakorlással mélyítjük el tudásunkat, a számítógép is annál pontosabb, minél több mintából tanul. Minél jobb minőségűek a minták, annál jobb minőségű lesz az elkészült modell is. Ez a tanítás korábban sok kézi beállítást igényelt, de a mai Deeplearning modellek kellően sok minta esetén automatikusan felismerik az összefüggéseket.
Ilyen modell tanítható például a DeepSpeech modul segítségével, mely mindenki számára elérhető a Mozilla Alapítvány jóvoltából. A programot bárki letöltheti és egy gyors számítógépen megtaníthatja saját modelljét. Mind a Google Asszisztense, mind az Apple Siri-je egy ehhez hasonló modellt használ a háttérben. Kidolgozni egy Deeplearning modellt, majd kellően sok mintát összegyűjteni igen hosszadalmas és költséges feladat, így az elkészült modellek nem érhetőek el nyilvánosan.
A magyar beszédfelismerést megkötésekkel, mint fizetős szolgáltatást lehet használni csak. Pedig a beszédfelismerés angol nyelvterületen már nagyon elterjedt. Azon kívül, hogy kényelmi szolgáltatást nyújt azoknak, akik okosotthonnal rendelkeznek, nagyon nagy segítség az idősebb generációnak és a gyengénlátóknak. Számukra a hang alapú kommunikáció olykor az egyetlen lehetőség, hogy teljes életet éljenek. Segítségével könnyen kommunikálnak rokonaikkal, barátaikkal, értesülhetnek a hírekről és akár el is intézhetik bevásárlásaikat.
A felhasználási terület sokrétű, de egy nyilvánosan elérhető modell nélkül nem lehetséges. Ezért a te segítségedre van szükség. Hozzuk létre együtt a magyar beszédfelismerés modelljét, hogy ne csak idegen nyelven tudjunk beszélni a számítógéppel. Gyűjtsünk össze elég hangmintát, hogy magyar beszédfelismerő modellt tudjunk tanítani. A Mozilla alapítvány ehhez létrehozott egy weboldalt, ahol már meg is kezdődött a munka.
A Common Voice weboldalon az alábbi lépéseket lehet elvégezni:
A hangminták felvételét.
A mások által felvett hangminták ellenőrzését.
Ezekhez egy könnyen használható felület áll rendelkezésünkre.
Az ellenőrzött hanganyag automatikusan rendelkezésre áll és bárki felhasználhatja, hogy saját modellt tanítson, amely könnyen beépíthető más alkalmazásokba. További információért látogass el a Common Voice weboldalra.
2020. Velinszky László (laszlo kukac kozhang.net) - Borítókép: Andrea Piacquadio