SG.hu·
Az új weboldalak harmada mesterséges intelligenciával készül

Az internet néhány év alatt olyan átalakuláson ment keresztül, amely korábban elképzelhetetlen lett volna. Egy friss kutatás szerint a 2022 óta létrehozott weboldalak mintegy harmada már részben vagy teljes egészében mesterséges intelligencia által generált tartalmakra épül. Az eredmények nemcsak a technológia gyors térnyerését mutatják, hanem azt is, hogy ez a változás milyen hatással van az online szövegek minőségére, sokszínűségére és hangvételére.
A vizsgálatot a Stanford Egyetem, az Imperial College London és az Internet Archive szakemberei végezték. A tanulmány átfogó képet ad arról, hogyan alakult át a web azóta, hogy 2022 végén megjelentek a széles körben elérhető generatív MI rendszerek. A kutatók eredetileg a Halott Internet teória nevű elképzelésből indultak ki, amely szerint az internet egyre inkább automatizált rendszerek közötti kommunikációvá válik, ahol a valódi emberi jelenlét háttérbe szorul.
A kutatás egyik legfontosabb megállapítása, hogy 2025 közepére az újonnan publikált weboldalak körülbelül 35 százaléka volt MI által generált vagy MI által támogatott. Ez az arány a ChatGPT megjelenése előtt gyakorlatilag nulla volt. Jonáš Doležal, a Stanford kutatója és a tanulmány társszerzője így fogalmazott: „Az MI webes térhódításának puszta sebességét egészen megdöbbentőnek találom.” Hozzátette azt is, hogy „évtizedeken át emberek formálták az internetet, most pedig három év alatt annak jelentős részét az MI határozza meg. Véleményem szerint egy olyan átalakulásnak vagyunk tanúi, amely töredéke annak az időnek, amennyi az internet eredeti felépítéséhez kellett.”
A kutatók nem álltak meg a mennyiségi növekedés vizsgálatánál, hanem azt is elemezték, milyen minőségi változásokat hoz az MI által generált tartalom. Hat gyakran megfogalmazott kritikát teszteltek. Megvizsgálták, hogy csökken-e a nézőpontok sokfélesége, nő-e a félretájékoztatás aránya az úgynevezett hallucinációk miatt, egységesebbé és derűsebbé válik-e az online szöveg, romlik-e a forráshivatkozások minősége, csökken-e a tartalmi sűrűség, illetve kialakul-e egyfajta stiláris egyhangúság, amely eltünteti az egyedi hangokat.
Az elemzéshez az Internet Archive adatbázisát használták fel, és 2022 augusztusa és 2025 májusa közötti időszakból gyűjtöttek mintákat. Minden egyes kiválasztott weboldal esetében a Wayback Machine archívumából a legrégebbi elérhető változatot vették alapul. Ezek nyers HTML kódját letöltötték és helyben dolgozták fel, hogy egységes módszertannal vizsgálhassák a szövegeket. A tartalmak MI eredetének meghatározásához több felismerő eszközt is teszteltek, végül a Pangram v3 nevű szoftvert választották, mivel ez bizonyult a leghatékonyabbnak.
Miután azonosították az MI által generált oldalakat, ezek szolgáltak alapul a további vizsgálatokhoz. Minden egyes hipotézishez mérhető mutatókat rendeltek, majd azt elemezték, hogy ezek hogyan változnak az időben, és milyen kapcsolatban állnak az MI jelenlétének növekedésével. A félretájékoztatás kérdésének vizsgálatához például tényszerű állításokat emeltek ki a szövegekből, amelyeket emberi ellenőrzők vizsgáltak meg. A forráshasználat elemzéséhez azt nézték, milyen sűrűn tartalmaznak külső hivatkozásokat az adott oldalak. Ezek a módszerek lehetővé tették, hogy ne csak benyomásokra, hanem konkrét adatokra építsék a következtetéseiket.
Az eredmények több szempontból meglepőek voltak. A hat vizsgált kritika közül mindössze kettő igazolódott. Az MI valóban csökkenti a szövegek szemantikai sokszínűségét, vagyis az online tartalmak egyre inkább hasonlítanak egymásra. Emellett a hangvétel is általában pozitívabbá és derűsebbé válik. Ugyanakkor nem találtak bizonyítékot arra, hogy az MI tömegesen növelné a hamis állítások számát, és arra sem, hogy eltűnnének a forráshivatkozások. A kutatók külön kiemelték, hogy a Truth Decay nevű hipotézis, amely az igazságtartalom romlását feltételezte, nem nyert megerősítést. Doležal szerint ugyanakkor ez nem jelenti azt, hogy minden rendben van. Elképzelhető, hogy az MI növeli az olyan állítások számát, amelyek nem ellenőrizhetők, és így kívül esnek a hagyományos tényellenőrzési rendszereken. Az is felmerül, hogy az internet már korábban sem volt különösebben megbízható, így a változás hatása nehezen mérhető.
A kutatás nem tekinti lezártnak a kérdést. A szakemberek a jövőben folyamatosan szeretnék monitorozni az internet alakulását. Egy olyan eszköz fejlesztésén dolgoznak, amely nem egyszeri pillanatfelvételt ad, hanem folyamatosan követi az MI által generált tartalom arányát és hatásait. Emellett részletesebb elemzéseket is terveznek, például azt vizsgálva, hogy mely weboldaltípusok vagy nyelvek érintettek leginkább. A kutatók szerint az egyik legnagyobb kihívás az, hogy az MI hogyan illeszthető be úgy az internet működésébe, hogy ne váljon minden tartalom egyformává. Doležal úgy véli, fontos lenne, hogy ezek a rendszerek ne kizárólag tökéletesen semleges és alkalmazkodó válaszokat adjanak. Szerinte „ahelyett, hogy a modelleket teljesen szabálykövetővé és egyetértővé kényszerítenénk, érdemes lehet megengedni számukra egy karakteresebb személyiséget vagy egyfajta súrlódást, ami segíthet abban, hogy kreatív partnerként működjenek, ne pedig az emberi hang helyettesítőiként.”
A vizsgálatot a Stanford Egyetem, az Imperial College London és az Internet Archive szakemberei végezték. A tanulmány átfogó képet ad arról, hogyan alakult át a web azóta, hogy 2022 végén megjelentek a széles körben elérhető generatív MI rendszerek. A kutatók eredetileg a Halott Internet teória nevű elképzelésből indultak ki, amely szerint az internet egyre inkább automatizált rendszerek közötti kommunikációvá válik, ahol a valódi emberi jelenlét háttérbe szorul.
A kutatás egyik legfontosabb megállapítása, hogy 2025 közepére az újonnan publikált weboldalak körülbelül 35 százaléka volt MI által generált vagy MI által támogatott. Ez az arány a ChatGPT megjelenése előtt gyakorlatilag nulla volt. Jonáš Doležal, a Stanford kutatója és a tanulmány társszerzője így fogalmazott: „Az MI webes térhódításának puszta sebességét egészen megdöbbentőnek találom.” Hozzátette azt is, hogy „évtizedeken át emberek formálták az internetet, most pedig három év alatt annak jelentős részét az MI határozza meg. Véleményem szerint egy olyan átalakulásnak vagyunk tanúi, amely töredéke annak az időnek, amennyi az internet eredeti felépítéséhez kellett.”
A kutatók nem álltak meg a mennyiségi növekedés vizsgálatánál, hanem azt is elemezték, milyen minőségi változásokat hoz az MI által generált tartalom. Hat gyakran megfogalmazott kritikát teszteltek. Megvizsgálták, hogy csökken-e a nézőpontok sokfélesége, nő-e a félretájékoztatás aránya az úgynevezett hallucinációk miatt, egységesebbé és derűsebbé válik-e az online szöveg, romlik-e a forráshivatkozások minősége, csökken-e a tartalmi sűrűség, illetve kialakul-e egyfajta stiláris egyhangúság, amely eltünteti az egyedi hangokat.
Az elemzéshez az Internet Archive adatbázisát használták fel, és 2022 augusztusa és 2025 májusa közötti időszakból gyűjtöttek mintákat. Minden egyes kiválasztott weboldal esetében a Wayback Machine archívumából a legrégebbi elérhető változatot vették alapul. Ezek nyers HTML kódját letöltötték és helyben dolgozták fel, hogy egységes módszertannal vizsgálhassák a szövegeket. A tartalmak MI eredetének meghatározásához több felismerő eszközt is teszteltek, végül a Pangram v3 nevű szoftvert választották, mivel ez bizonyult a leghatékonyabbnak.
Miután azonosították az MI által generált oldalakat, ezek szolgáltak alapul a további vizsgálatokhoz. Minden egyes hipotézishez mérhető mutatókat rendeltek, majd azt elemezték, hogy ezek hogyan változnak az időben, és milyen kapcsolatban állnak az MI jelenlétének növekedésével. A félretájékoztatás kérdésének vizsgálatához például tényszerű állításokat emeltek ki a szövegekből, amelyeket emberi ellenőrzők vizsgáltak meg. A forráshasználat elemzéséhez azt nézték, milyen sűrűn tartalmaznak külső hivatkozásokat az adott oldalak. Ezek a módszerek lehetővé tették, hogy ne csak benyomásokra, hanem konkrét adatokra építsék a következtetéseiket.
Az eredmények több szempontból meglepőek voltak. A hat vizsgált kritika közül mindössze kettő igazolódott. Az MI valóban csökkenti a szövegek szemantikai sokszínűségét, vagyis az online tartalmak egyre inkább hasonlítanak egymásra. Emellett a hangvétel is általában pozitívabbá és derűsebbé válik. Ugyanakkor nem találtak bizonyítékot arra, hogy az MI tömegesen növelné a hamis állítások számát, és arra sem, hogy eltűnnének a forráshivatkozások. A kutatók külön kiemelték, hogy a Truth Decay nevű hipotézis, amely az igazságtartalom romlását feltételezte, nem nyert megerősítést. Doležal szerint ugyanakkor ez nem jelenti azt, hogy minden rendben van. Elképzelhető, hogy az MI növeli az olyan állítások számát, amelyek nem ellenőrizhetők, és így kívül esnek a hagyományos tényellenőrzési rendszereken. Az is felmerül, hogy az internet már korábban sem volt különösebben megbízható, így a változás hatása nehezen mérhető.
A kutatás nem tekinti lezártnak a kérdést. A szakemberek a jövőben folyamatosan szeretnék monitorozni az internet alakulását. Egy olyan eszköz fejlesztésén dolgoznak, amely nem egyszeri pillanatfelvételt ad, hanem folyamatosan követi az MI által generált tartalom arányát és hatásait. Emellett részletesebb elemzéseket is terveznek, például azt vizsgálva, hogy mely weboldaltípusok vagy nyelvek érintettek leginkább. A kutatók szerint az egyik legnagyobb kihívás az, hogy az MI hogyan illeszthető be úgy az internet működésébe, hogy ne váljon minden tartalom egyformává. Doležal úgy véli, fontos lenne, hogy ezek a rendszerek ne kizárólag tökéletesen semleges és alkalmazkodó válaszokat adjanak. Szerinte „ahelyett, hogy a modelleket teljesen szabálykövetővé és egyetértővé kényszerítenénk, érdemes lehet megengedni számukra egy karakteresebb személyiséget vagy egyfajta súrlódást, ami segíthet abban, hogy kreatív partnerként működjenek, ne pedig az emberi hang helyettesítőiként.”