A web jövője már gépek számára készül, nem embereknek

Az MI böngészni, vásárolni és cselekedni fog a felhasználó helyett.

1999-ben, egy évtizeddel a világháló feltalálása után, Sir Tim Berners-Lee brit számítástechnikus elképzelte alkotása intelligens verzióját. Ebben a vízióban a mindennapi élet számos feladata - információkeresés, tervezés, hétköznapi ügyek intézése - nem emberek, hanem „intelligens ügynökök” révén zajlott volna: gépek, amelyek képesek olvasni, értelmezni és cselekedni. Az internet azóta drámaian fejlődött, de a felhasználói élmény továbbra is manuális maradt: a felhasználók még mindig gépelnek, kattintanak és böngésznek, mielőtt vásárolnának, olvasnának vagy néznének valamit.

A mesterséges intelligencia (MI) most valósággá teheti Sir Tim álmát. A nagy nyelvi modellek (LLM-ek) képesek dokumentumokat összefoglalni, kérdésekre válaszolni és következtetéseket levonni. Ami egyelőre hiányzik, az a cselekvés képessége. Ezt azonban már az „ügynökök” teszik lehetővé: olyan szoftverek, amelyek eszközöket adnak az LLM-eknek, így azok nem csupán szöveget generálnak, hanem feladatokat is elvégezhetnek.

A változás 2022-ben kezdődött a ChatGPT indulásával. Sok felhasználó kulcsszavakra keresés helyett a chatbotokhoz fordult, hogy az interneten szétszórt információkat összeszedje. Az ilyen „válaszadó motorok” azonban csak a lehetőségek felszínét karcolgatják. Kevin Scott, a Microsoft technológiai igazgatója szerint összetettebb feladatokat kezelni képes ügynökök „nincsenek is olyan messze”. Ahhoz azonban, hogy ezek átvegyék a munka nagy részét, a web infrastruktúrájának változnia kell.

Az egyik központi akadály a nyelv: az ügynököknek módot kell találniuk arra, hogy kommunikáljanak az online szolgáltatásokkal és egymással. Egy weboldal vagy online szolgáltatás általában egy alkalmazásprogramozási felületen (API) keresztül kommunikál a külvilággal, amely megmondja a látogatóknak, mit tud csinálni, például orvosi időpontot foglalni vagy térképet biztosítani. Az API-k azonban embereknek készültek, mindegyiknek megvannak a maga sajátosságai és dokumentációja. Ez nehéz környezet az MI-ügynökök számára, mert ezek természetes nyelven gondolkodnak. Minden új API-val való megbirkózás azt jelenti, hogy meg kell tanulni annak dialektusát. Ahhoz, hogy az ügynökök önállóan cselekedhessenek az interneten, szabványos kommunikációs módra lesz szükségük.

Ezt a célt szolgálja a Model Context Protocol (MCP), amelyet az Anthropic MI-labor fejlesztett ki. Mike Krieger, a vállalat termékmenedzsere szerint az ötlet akkor született, amikor a Claude nevű chatbotot olyan szolgáltatásokhoz csatlakoztatták, mint a Gmail vagy a GitHub. Ahelyett, hogy minden alkalmazást külön integráltak volna Claude-dal, a cég egy közös szabályrendszert akart, amely lehetővé teszi az ügynökök számára, hogy közvetlenül hozzáférjenek a felhasználók e-mailjeihez vagy fájljaihoz. Egy ügynök tehát nem technikai útmutatók tanulmányozásával deríti ki, mit tud egy rendszer - például repülőjegyet foglalni, előfizetést törölni vagy visszatérítést adni -, hanem az MCP szerverhez fordul, majd a felhasználó nevében cselekszik, speciális kód nélkül.

Tegyük fel, hogy le szeretnénk foglalni egy Budapest-London repülőutat. Ehhez át kell adni az utazási terveket egy utazási ügynöknek, amely aztán felosztja a feladatot specializált ügynökök között, akik a repülőjáratokat, szállásokat és autókat keresik. Ezek az ügynökök kapcsolatba lépnek a légitársaságok, szállodák és autókölcsönzők MCP-szervereivel, összegyűjtik az információkat, összehasonlítják a lehetőségeket és elkészítik a lehetséges útvonalak listáját. A végén annyi a dolgunk, hogy kiválasszuk az opciók közül a nekünk tetszőt, és az utazási ügynök lefoglal mindent.

Az ilyen koordinációhoz szabályok szükségesek arra, hogyan azonosítják, kommunikálnak és bíznak egymásban az egyes ügynökök. A Google javaslata az A2A (agent-to-agent) protokoll. Az ügynökök ezen keresztül hirdethetik képességeiket egymásnak és egyeztethetik, ki mit csináljon. Laurie Voss, az Arize AI vezetője szerint a cégek „versenyben vannak” az ügynökweb domináns szabványainak meghatározásáért. A legszélesebb körben elfogadott protokoll lehetővé teszi a támogatóinak eszközeinek, hogy többet, hamarabb és jobban tegyenek. A héten az Anthropic, OpenAI, Google, Microsoft és mások bejelentették az Agentic AI Foundation létrehozását, amely nyílt forráskódú szabványokat dolgoz ki az MI-ügynökök számára. Az Anthropic MCP része lesz ennek, jelezve széleskörű ipari szabvánnyá válását az ügynökök közötti kommunikációban.

A web nagy része, amelyen ezek az ügynökök böngészni fognak, továbbra is emberi szemek számára készült. Egy termék megtalálása még mindig menükön keresztül történik. Annak érdekében, hogy a nyelvi modellek könnyebben férjenek hozzá az oldalakhoz, a Microsoft kifejlesztette a Natural Language Web (NLWeb) rendszert, amely lehetővé teszi a felhasználóknak, hogy természetes nyelven „beszélgessenek” bármely weboldallal. A felhasználók például kérhetnek utazási tippeket három gyerekkel való nyaraláshoz vagy a legjobb borboltok listáját egy adott helyen. Míg a hagyományos kereséshez több menün keresztül kell szűrni helyszín, alkalom és konyha szerint, az NLWeb egyetlen természetes mondatból képes leképezni a kérdés teljes szándékát és ennek megfelelően válaszolni. Minden NLWeb oldal MCP-szerverként is működhet, kitéve tartalmát az ügynököknek, így hidat képez a vizuális internet és az ügynökök által használható web között.

Ahogy az ügynökök képességei nőnek, új platformverseny alakul ki, ezúttal maguk az ügynökök körül. Ez visszhangozza az 1990-es évek böngészőháborúit, amikor a cégek a web-hozzáférésért küzdöttek. Most a böngészőket az ügynökök középpontjába helyezik. Az OpenAI és a Perplexity ügynökalapú böngészőket indított, amelyek követni tudják a járatokat, dokumentumokat szereznek be és kezelik az e-maileket. Ambícióik ennél is nagyobbak: szeptemberben az OpenAI lehetővé tette közvetlen vásárlások végrehajtását bizonyos weboldalakon a ChatGPT-n belül, és integrálta a Spotify-t és a Figmát, így a felhasználók zenét játszhatnak vagy terveket szerkeszthetnek alkalmazásváltás nélkül.

Az ilyen lépések aggodalmat keltenek a hagyományos szereplőkben. Novemberben az Amazon beperelte a Perplexity-t, azzal vádolva a startupot, hogy megsérti szolgáltatási feltételeit, mert a böngészőjük vásárol a felhasználó helyett. Az Airbnb szállásfoglaló alkalmazás szándékosan nem működik a ChatGPT-vel, mondván a funkció „még nincs teljesen kész”.

A hirdetéseknek is alkalmazkodnia kell. A mai web az emberi figyelem pénzzé tételére épül, keresési hirdetésekkel és közösségi feedekkel. Az Alphabet és a Meta, a legnagyobb techcégek közé tartozva, így évente közel félbillió dollárt keresnek, ami bevételeik több mint 80%-át adja. Dawn Song, a Berkeley Egyetem számítástechnikus professzora szerint a marketingeseknek nem emberekhez, hanem „ügynökfigyelemhez” kell szólniuk. Az utazási oldalak például nem a turista meggyőzésére törekednek, hanem digitális helyettesének meggyőzésére. A taktika maradhat ugyanaz: rangsorolás optimalizálása, preferenciák célzása, fizetés a megjelenésért, de a közönség algoritmusokból áll majd.

Az ügynökök általi böngészés a webes tevékenység nagymértékű növekedését is eredményezheti. Parag Agrawal, a Parallel Web Systems AI-startup alapítója szerint a web emberek számára készült, emberi sebességgel olvasva. Az ügynökök nem korlátozódnak erre. Több ezer oldalt képesek másodpercek alatt átnézni, figyelmen kívül hagyott linkeket követni és feladatokat párhuzamosan végezni, sok mindent, ami sosem jelenik meg a képernyőn. Szerinte az ügynökök a webet „száz- vagy ezerszer” annyira használhatják, mint az emberek.

Az ügynökök hibázhatnak is. Előfordulhat, hogy az MI-ügynök viselkedését a felhasználó nem érti teljesen, hibákat követhet el, majd magyarázatokat fabrikálhat. Még aggasztóbb a külső manipuláció. A prompt injection - azaz a rosszindulatú parancsok elrejtése weboldalakon vagy fájlokban - megtévesztheti az ügynököket, adatokat szivárogtathat, megkerülhet biztonsági ellenőrzéseket vagy jogosulatlan lépéseket tehet. A biztonsági intézkedések csökkenthetik a kockázatokat. Az egyik módszer az ügynökök korlátozása megbízható szolgáltatásokra. Másik a hatáskör szűkítése. Néhány „csak-olvasás” módban működik, adatot lekérhet, de nem küldhet vagy módosíthat. Mások csak emberi megerősítéssel cselekedhetnek. A legérzékenyebb feladatoknál embernek kell a folyamatban maradnia.

A kockázatok ellenére a szoftverfejlesztők optimisták. Agrawal szerint el fog mozdulni a világ a „kérés alapő” internettől, ahol az emberek kezdeményeznek, a „toló” modell felé, ahol az ügynökök önállóan cselekszenek, azaz találkozókat szerveznek, kutatnak vagy kisebb feladatokat intéznek. Ez megalapozhatja a web egy új, nagyon eltérő verzióját.

A web jövője már gépek számára készül, nem embereknek

Kapcsolódó cikkek és linkek

Hozzászólások