Autentizace: hlasová biometrie

V tomto příspěvku se budeme zabývat otázkou jako ověřit uživatele pomocí hlasu.

Technologie hlasové biometrie (voice biometrics) umožňující autentizaci uživatele pomocí hlasu (voice authentication) v posledních letech pokročila na tolik, že jejímu masivnějšímu nasazení již nebrání ani tak cena, jako spíše stále přetrvávající nedůvěra odborné i laické veřejnosti v její spolehlivost. Není tedy divu, že se s touto technologií můžeme v běžném životě setkat zatím spíše výjimečně, a přitom by se dala poměrně efektivně využít např. v rámci skutečné vícefaktorové autentizace (multi-factor authentication, zkr. MFA) např. pro přístup klienta k bankovnímu účtu nebo k jiným citlivým informacím.

voice-biometry

Poznámka: Pozor, speaker recognition není totéž co speech recognition, neboť oba systémy slouží ke zcela jiným účelům. Zatímco v prvním případě je cílem takového systému poznat, komu daný hlas patří, tak ve druhém případě je cílem rozpoznat, co daná osoba říká.

V principu není ověření pomocí hlasu nic složitého. Nejprve pořídíme hlasový záznam (např. z právě probíhající běžného hovoru mezi operátorem a klientem, takže klient o tom v podstatě vůbec nemusí vědět), který analyzujeme a vytvoříme z něj hlasový otisk (voiceprint) jenž uložíme do systému (tento proces nazývaný honosně enrollment). Při příští komunikaci s daným uživatelem pak jeho aktuální hlasový projev porovnáme pomocí speciálního, pro tento účel vyvinutého algoritmu s voiceprintem, který máme uložen v systému a pokud si vybrané hlasové charakteristiky odpovídají, je uživatel vpuštěn do systému, v opačném případě mu je přístup odepřen.

Poznámka: Pozor, pokud hovoříme o identifikaci řečníka (speaker identification), tak systém musí projít všechny voiceprinty a dohledat komu daný hlas patří. V případě autentizace řečníka (speaker authentication) se již uživatel nějak identifikoval a systém ověřuje jeho hlas proti jedinému voiceprintu, takže samotné ověření by nemělo trvat déle než několik sekund.

Tato forma ověření uživatele může spočívat buď v analýze toho, jak byla vyslovena požadovaná fráze nebo jak byl vysloven libovolný text. Zatímco v prvním případě musí uživatel vyslovit např. sdílené tajemství nebo zopakovat frázi, kterou mu přehrál systém (jedná se o tzv. text-dependent system), tak ve druhém případě může hovořit zcela přirozeně (free speech) a jeho hlas je vyhodnocován v průběhu hovoru (jedná se o tzv. text-independent system).

Poznámka: Některé systémy ukládají do své DB jen voiceprint o velikosti maximálně několika KB, ze kterého nelze zrekonstruovat původní nahrávku, a případně voiceprint aktualizují s každou úspěšnou autentizací.

Jistě vás napadlo, že pokud by systém vyžadoval pouze vyslovení správného hesla, mohl by být oklamán opětovným přehráním zachycené zprávy (replay attack). Takový útok spočívá v tom, že útočník si nejprve hlas oprávněného uživatele nahraje a poté ho přehraje v okamžiku, kdy ho systém vyzve k vyslovení daného hesla. To by měl ale systém snadno odhalit, protože člověk nedokáže danou frázi zopakovat vždy úplně přesně, kdežto stroj ano, takže systém bude hned vědět, že se jedná o replay attack.

Jako bezpečnější řešení se tedy jeví požadovat po uživateli zopakování náhodně vygenerované fráze. Fráze může být například náhodně generovaná řada čísel (což je asi nejčastější řešení) nebo náhodně vybraný text z nějaké databáze, případně fráze vygenerovaná ze slovníku, která je pak uživateli přehrána pomocí syntézy řeči. Tu si útočník dopředu připravit nemůže a generovat ji v průběhu hovoru pomocí SW z DB obsahující slova z odněkud získané nahrávky by měl systém též rozpoznat, neboť je schopen rozlišit i změnou výslovnosti slova u konkrétního uživatele díky okolním slovům.

Kromě toho věta, kterou musí uživatel zopakovat, může obsahovat i slova a spojení, která se v běžném jazyce příliš často nepoužívají, a tudíž útočník nebude mít možnost si jejich nahrávku někde pořídit. Nehledě na to, že mohou být použity oba přístupy, kdy je uživatel nejprve ověřen tím, že musí zopakovat danou frázi a následně je pak jeho hlas vyhodnocován i v průběhu celého hovoru.

Představte si, že byste např. zavolali do své banky, systém by vás podle vašeho hlasu poznal a vy byste jen operátora požádali o provedení určité transakce nebo o sdělení jiných citlivých informací. To by byla efektivita a komfort. Ovšem rozhovor uživatele a operátora by musel být v takovém případě dostatečně unikátní, aby nebylo možné replay attack realizovat pouhým přehráním již předem připravených vět. Nezapomínejte, že operátoři call center kvůli efektivitě vedou dialog podle předem daných scénářů, takže se dá předpokládat, že každý hovor bude probíhat víceméně stejně. Ale možná že ani to by nemuselo být nutné, protože jak jsme již uvedli výše, systém by měl takový útok snadno poznat.

Jedno je jisté, pro obě strany je důležité, aby systém fungoval maximálně spolehlivě, tzn., aby vás poznal podle hlasu i v případě, že budete nachlazen a zároveň, aby odhalil útočníka, který má podobný hlas (vaše dvojče, člen rodiny) nebo se snaží váš hlas napodobit (imitátor). V případě, že si systém není jistý, měl by použít jiný způsob autentizace. Z těchto důvodů je vhodné kombinovat tento autentizační faktor ještě s dalším faktorem z jiné kategorie.

Poznámka: Špičkové systémy pracují s příznaky, které komplexně popisují hlasové ústrojí řečníka. To je dáno fyziologicky a imitátor ho nemůže v žádném případě změnit, a proto jsou tyto systémy vůči profesionálním imitátorům celkem imunní, neboť imitátor zvládne pouze změnit základní tón a rychlost řeči, či některé další parametry, což k oklamání nestačí.

Nemusíme se spoléhat jen na hlasovou verifikaci. Můžeme např. po uživateli požadovat zadání jeho ID a PINu nebo akceptovat volání jen z určitého čísla. V obou případech se pak jedná o dvoufaktorovou autentizaci. V prvním případě z kategorie „něco ví“ a ve druhém případě z kategorie „něco má“. Případně je možné provádět kontrolu všech tří faktorů, počítat skóre a podle jeho výše pak rozhodovat, zda uživatel procesem autentizace úspěšně prošel nebo ne.

Poznámka: V České republice se problematikou verifikace mluvčího hluboce zabývá výzkumná skupina Speech@FIT z Fakulty informačních technologií Vysokého učení technického, která v tomto oboru patří ke světové špičce.

Závěr: Domníváme se, že pro většinu uživatelů by mohla být autentizace pomocí hlasu přijatelná, neboť na ně neklade prakticky žádné nároky. Lze však tuto metodu autentizace považovat za spolehlivou a bezpečnou?

Pro citování tohoto článku ve své vlastní práci můžete použít následující odkaz:
ČERMÁK, Miroslav. Autentizace: hlasová biometrie. Online. Clever and Smart. 2011. ISSN 2694-9830. Dostupné z: https://www.cleverandsmart.cz/autentizace-hlasova-biometrie/. [cit. 2025-01-25].

Pokud vás tento článek zaujal, můžete odkaz na něj sdílet.

Štítky:

  1. kasperko

    Ako doplnok k tejto biometrie by som navrhol detektor lzi, http://ekonomika.sme.sk/c/6135410/poistovniam-pomoze-proti-podvodom-detektor-lzi.html

  2. Miroslav Čermák

    Nová umělá inteligence společnosti Microsoft dokáže simulovat hlas kohokoli pomocí 3 sekund zvuku:
    https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/?utm_social-type=owned&utm_brand=ars


K článku “Autentizace: hlasová biometrie” se zde nachází 2 komentáře.

Diskuse na tomto webu je moderována. Pod článkem budou zobrazovány jen takové komentáře, které nebudou sloužit k propagaci konkrétní firmy, produktu nebo služby. V případě, že chcete, aby z těchto stránek vedl odkaz na váš web, kontaktujte nás, známe efektivnější způsoby propagace.

Přihlášeným uživatelům se tento formulář nezobrazuje - zaregistrujte se.

Jméno:(požadováno)
E-mail:(požadováno - nebude zobrazen)
Web:

Text vaší reakce: