Brněnská Phonexia uvedla na trh unikátní technologii pro rozpoznávání řeči

Technologická společnost Phonexia vznikla v roce 2006, kdy ji založil tým vědců brněnské Fakulty informačních technologií VUT, který se rozpoznáváním řeči zabýval v rámci univerzitního výzkumu. Technologie vyvíjená v Brně nachází využití zejména v zahraničí, odkud pochází 80 % obratu společnosti.

„Naše technologie analyzují hlas z nahrávky či telefonického rozhovoru a na základě toho umožňují identifikovat řečníka, jeho pohlaví nebo přibližný věk. Stejně tak dokáží z několika hlasů a ruchů najednou vytáhnout hlas konkrétní osoby, monitorovat výskyt konkrétních frází v řeči a mluvené slovo přepsat do psané podoby. Využití nachází jak v komerční sféře, tak při identifikaci pachatelů trestných činů nebo odhalování možných teroristických hrozeb. V komerčním sektoru se naše technologie mohou uplatnit například u služeb hlasových asistentů, při hlasové autorizaci úkonů v bankách či pojišťovnách, nebo v call centrech, kterým naše produkty umožňují analyzovat kvalitu hovorů a následně je zlepšovat,” uvádí Michal Hrabí, CEO společnosti Phonexia.

Technologie Phonexie obstojí i v těch nejtěžších podmínkách extrémně hlučného prostředí. Dokázal to pokus, na kterém se podílel tým vědců složený ze zástupců Phonexie, VUT a amerických partnerů, o němž nedávno vyšel vědecký článek v prestižním Journal of the Acoustical Society of America. Řešení od Phonexie dokázalo v podmínkách, kdy nebyl přes hluk hlas takřka slyšet, rozeznat jazyk a pohlaví mluvčích, identifikovat je a rozlišit jednotlivé osoby mezi sebou. Díky tomu ho lze využít i při automatizaci výroby v hlučných průmyslových halách.

Technologie, která se dokáže sama učit

Letos na jaře vypustila Phonexia do světa novou technologii Deep Embeddings, která jako první na světě pro identifikaci a ověření mluvčího využívá výhradně hluboké neuronové sítě. Tyto sítě analyzují krátké úseky hovoru a samy se učí rozpoznávat unikátní prvky hlasu každé osoby. Stejně jako třeba otisk prstu nebo scan oční rohovky, i hlasový otisk obsahuje nezaměnitelnou biometrickou informaci, který dokážou neuronové sítě rozpoznat a přiřadit je ke konkrétnímu mluvčímu. Díky novince je technologie Phonexie, která už tak patřila k jedněm z nejrychlejších a nejpřesnějších na světovém trhu, dvakrát rychlejší a 2,4krát přesnější oproti své předchozí verzi.

„Vyšší přesnost a rychlost šetří čas i peníze - ať už jde o snížení pravděpodobnosti, že bude klient omylem odmítnut při hlasovém ověření, nebo o zvýšení šance odhalení podvodníka, který si chce pod identitou někoho jiného vzít bankovní půjčku,” uvádí Petr Schwarz, CTO společnosti Phonexia.

V plánu je další růst

Technologie Deep Embeddings potřebuje díky hlubokým neuronovým sítím oproti svému předchůdci pouze jednu sedminu operační paměti. To nejen výrazně snižuje nároky na hardwarové vybavení, ale také umožní technologii používat i ve velmi malých zařízeních. Právě v tom vidí Petr Schwarz nové příležitosti pro další růst Phonexie.

„Očekáváme, že díky nové technologii pronikneme do nových segmentů, jako je třeba industry 4.0, automobilový průmysl, chytré hodinky, Internet věcí nebo zařízení bez stálého připojení k internetu,” vysvětluje Petr Schwarz.

Kromě toho plánuje Phonexia pokračovat v rozšiřování svého klientského portfolia v oblasti call center a finančních institucí. V letošním roce očekává růst obratu o dalších 60 % a rozšíření týmu o dalších 10 lidí. Zaměstnance do svých brněnských kanceláří hledá především na technické pozice přímo do vývoje a na pozice odborných konzultantů pro své zákazníky.