Az MI már valós időben utánozza bárkinek a hangját

A hangalapú adathalászat, vagyis a voice phishing legújabb trendje a valós idejű MI-csalás. Ahogyan korábban megtanultuk, hogy az e-maileket óvatosan kezeljük, mostantól ugyanezt kell tennünk a "emberi hangnak" tűnő beszélgetésekkel is.

Egészen a közelmúltig egy olyan mesterséges intelligencia rendszer építése, amely képes meggyőző telefonbeszélgetést folytatni, rendkívül idő- és munkaigényes volt. Különböző eszközöket kellett összekapcsolni a beszédfelismerés, a nyelvfeldolgozás és a beszédszintézis területéről, mindezt törékeny telefonos szoftvereken keresztül. Ma már ez nem így van. A valós idejű, beszédre optimalizált MI-modellek, például az OpenAI tavaly indított RealTime API-ja lehetővé teszik, hogy egy korábban több komponensből álló rendszert percek alatt összeállítson bárki.

A nyilvánosan elérhető kódok segítségével ezek a modellek egy telefonvonalhoz csatlakoztathatók. Az MI hallgat, "gondolkodik” és azonnal reagál. Az eredmény egy olyan szintetikus hang, amely folyékonyan tud beszélgetni, természetesen improvizál és képes fenntartani egy párbeszédet úgy, hogy az emberinek tűnik. Az elmúlt évben eljutottunk a széles körű, MI-alapú hangalapú adathalászat (voice phishing, vagy rövidebben vishing) elméleti lehetőségétől a valóságig. Tavaly a brit Arup technológiai céget 25 millió dollárral károsították meg deepfake-csalás révén, míg a Cisco elleni vishing-támadással sikeresen hozzáfértek egy felhőalapú ügyfélkapcsolat-kezelő rendszer adataihoz. Márciusban pedig a Ferrarinál a vezérigazgató hangján hívták fel a pénzügyi vezetőt, és kérték meg egy átutalás lebonyolítására.

Ami korábban szakértelmet igényelt, ma már bárki számára elérhető, előre csomagolt formában. Az alacsony késleltetésű, beszédalapú modellek eltávolították az utolsó technikai akadályokat a valós idejű MI-hangalapú csalások elől. Néhány sor utasítás elegendő ahhoz, hogy egy rendszer személyzeti vezetőként "telefonáljon a bérszámfejtésről", vagy csalásellenes szakértőként figyelmeztessen gyanús tevékenységre. Mivel az MI képes valós időben gondolkodni és stratégiát változtatni, manipulációja adaptív.

A technológia maga rendelkezik legitim felhasználási területekkel, például egészségügyi követés, ügyfélszolgálat vagy nyelvtanítás. Ugyanakkor a hozzáférhetőség, ami az innovációt segíti, a kárt is lehetővé teszi. Egyetlen üzemeltető elméletileg naponta több százezer csaló hívást indíthat, mindegyiket célzottan a megcélzott személyhez igazítva. A fenyegetést fokozza az olyan platformok növekvő realizmusa és alacsony költsége, mint az ElevenLabs vagy a Cartesia, amelyek rövid hangmintákból képesek hangklónozásra.

Közszereplők esetében viszonylag könnyen összegyűjthetők órányi felvételek, és ezekből készíthető egy meggyőző hangutánzat, anélkül, hogy az érintett tudna róla. Az FBI szerint már előfordult, hogy közszereplőket ilyen támadások során utánoztak, ezért a nyilvánosságot figyelmeztették, hogy ne higgyenek automatikusan olyan üzeneteknek, amelyek egy magas rangú amerikai tisztviselő nevében érkeznek.

Az MIT Risk Repository adatbázisa több mint 1600 MI-kockázatot tart nyilván, és e szerint az elmúlt öt évben a csalással összefüggő MI-események aránya körülbelül 9 százalékról 48 százalékra nőtt. Ez a kibertámadások nagyságrendjét jelzi: a hangalapú azonosítás, amely a beszédminták alapján az ügyfeleket azonosítja, immár kockázati tényezővé vált. Az érzékeny kérések és magas értékű tranzakciók esetén többfaktoros azonosítás szükséges, amely nem függ attól, hogyan hangzik valaki. A laikusok számára az egyszerű tanulság: a vonal másik végén hallott hang már nem bizonyíték arra, hogy ki beszél. Ahogyan megtanultuk az e-mailek esetében az óvatosságot, ma a „humán hangot” is meg kell kérdőjeleznünk. Hosszabb távon szükség lehet hangvízjelek vagy digitális aláírások alkalmazására, amelyek hitelesítik a beszédet.

Az MI körüli viták gyakran egzisztenciális kockázatokra összpontosítanak, de először a kisebb, közvetlen veszélyek érnek el minket. A csalás és az álnévhasználat aláássa a mindennapi kommunikációba vetett bizalmat. Ezek a "mindennapi” bűncselekmények az MI átmenet frontvonalát képezik. Az a kreativitás, amely megalkotta a támadó eszközöket, alkalmazható a védelemre is. A generatív MI valódi zavaró hatása - csendes, láthatatlan formája - már megérkezett. Nem szuperintelligencia formájában jelentkezik, hanem egy telefonhívásban.

Az MI már valós időben utánozza bárkinek a hangját

Kapcsolódó cikkek és linkek

Hozzászólások