SG.hu·2010. szeptember 22.

Csak az online anyagok töredéke érhető el jelenleg

A világhálón fellelhető adatok mennyisége egy ember számára szinte felfoghatatlan. Egy átlagos felhasználó, aki többnyire a Google-t vagy egy másik keresőt használ, ennek az információmennyiségnek csak egy apró részével szembesül.

A web egy jelentős része a mai napig elérhetetlen a keresők számára, ezáltal a cégek nem is tudják a rendszerükben indexálni ezeket a tartalmakat. Nem véletlen, hogy egy ideje a keresők többsége már nem mutatja ki, hogy hány oldalt indexált. "Úgy tűnik, hogy az index nagysága a nagyobb keresőket üzemeltető cégek számára egyáltalán nem fontos minőségi követelmény" - jegyezte meg Philipp Mayr, a Darmstadi Főiskola professzora.

Becslések alapján a Google és a többi online kereső csak a webre felkerülő tartalmak egy századát képes összegyűjteni és megjeleníteni. Azt ugyanakkor senki sem tudja, hogy pontosan mekkora is az online jelenlévő adatmennyiség. Mayr elmondta, hogy tudomása szerint nem is igazán léteznek az un. Deep Web nagyságáról szóló tanulmányok. Csak Michael Bergman készített 2001-ben egy átfogó anyagot. A szakember akkor úgy vélte: az ismeretlen világháló 400-550-szer nagyobb lehet az általunk jelenleg ismert webnél, de ez csak egy pontatlan és egyszerű becslés.

Más szakemberek, például Rüdiger Schneemann, a Berlini Műszaki Egyetem munkatársa úgy nyilatkoztak, hogy a még feltáratlan internet 10-50-szer nagyobb a jelenleg ismert világhálónál. Schneemann közölte: a számok biztos megtámadhatók, de tény, hogy az információk túlnyomó része nem található meg a ma ismert weben. Az adatok jelentős része vagy nem szabadon elérhető vagy a keresőprogramok technikai okokból nem férnek hozzájuk. Fontos, hogy nem is mindegyik információ lenne érdekes az átlagembereknek.

Philipp Mayr rámutatott: "A keresők által nem indexált adatok zöme valós idejű feljegyzés, időjárási vagy fizikai témájú fájl. Kérdéses viszont, hogy ezek mennyire lennének hasznosak az internetezőknek és mennyire kellene szerepelniük a keresőszolgáltatások online találatai között."

A webes tartalmak két módon kerülhetnek a Google és a többi keresőprogram adatbázisába: vagy a honlap tulajdonosa, üzemeltetője jelzi a cégeknek az információt, vagy a cégek által használt un. robotok találják meg a hivatkozást. Utóbbi esetben a robotok oldalról oldalra mennek és mindig a linkeket követik. A nem linkelt vagy az üzemeltetők által nem jelzett portálok értelemszerűen kimaradnak az adatbázisból.

Külön kategóriát képeznek a tudományos tartalmakat kínáló, anyagaikat csak egy meghatározott időpontban megjelentető, majd újra elzáró, illetve a kizárólag regisztrált látogatók számára elérhető oldalak. A megoldást ezeknél a Google Scholar jelentheti, amely kifejezetten a tudományos anyagokat gyűjti össze és teszi hozzáférhetővé. A Bright Planet amerikai cég pedig kifejezetten a Deep Web-információk felkutatására specializálta magát. A vállalat által használt szoftver automatikusan kérdésekkel bombázza a különböző online adatbázisokat és a találatokat indexálja. A szolgáltatást az elmúlt években elsősorban az amerikai titkosszolgálatok vették igénybe. Egyelőre azonban kérdéses, hogy ezek a megoldások hosszú távon is beválnak-e vagy sem.

Kapcsolódó cikkek és linkek

A keresőoptimalizálás korszakának vége, teljesen új szabályok szerint kell megküzdeni a figyelemért A Google módosítja keresési találatait az uniós bírság elkerüléséért A keresők helyett már a ChatGPT ajánlásait próbálják módosítani a cégek Valóban a ChatGPT az új Google?Megmentené az MI miatti forgalomcsökkenéstől a weboldalakat egy osztrák cég Nekimegy a "legjobb" listáknak a Google Az OpenAI kereséssel egészítette ki a ChatGPT-t Hülyeségeket válaszol a Google kereső találatai feletti MI-áttekintés

Hozzászólások

Jelentkezz be a hozzászóláshoz.

kis off:
Indexálja?
inkább indexeli, nem?

Te bajod ... én _mindent_ megtalálok amire szükségem van, a 73 éves filmektõl elkezdve, a kedvenc zenéken/könyveken keresztül a különféle publikációkig ami a munkámhoz kell ... és még sok mást.

Persze tény és való, hogy ehhez az is szükségeltetik, hogy kellõen nagy legyen egy adott nyelvû ország jelenléte a világhálón. Így például - ha már film volt az elsõ példám - az 1956-os Háború és Béke filmet a maga ~30 éves magyar szinkronjával a büdös életben nem találod meg, mert úgymond a kutyát sem érdekel egy világszerte mindössze 14 millió beszélõt számláló nyelv. Ilyenkor vagy tudsz egy oldalról ahol véletlenül éppen fenn van, vagy nem. Rákeresni nem fogsz tudni.

Tökéletesen igaz. A mítosz, hogy "a neten minden fent van" hamis. Legalábbis abban a formában, ahogy az illetõk értik. Nincs fent minden mindenki számára elérhetõ formában, én már sokszor beleütköztem ebbe a korlátba.

A "világháló" != "web"

Még hogy a világháló 550-szer nagyob? Talán inkább 1 milliószor. A védett adatbázisok, vpn-es Lan-ok gépei, ftp-k, egyéb fájlszerverek, intézményi archivumok, meg ezer egyéb, amit a világháló tartalmaz ,nagyságrendekkel több adatot képviselnek, mint a "web". Mert mi a web? Amit a böngészõd képes megjeleníteni? A keresõk csak szándékosan közzétett, vagy végtelenül gyenge biztonságú hálózatok adatait indexelhetik.

Ha bármi igazán komolyat szeretnél készíteni (mittomén napelem pl.) rájössz, hogy az ördög a részletekben van. Ezeket a részleteket nem fogod megtalálni a weben.

Persze találsz majd mindenféle elméleti magyarázatot, de semmi olyat, amibõl profitálhatnál. Vagy megcsinálod magad, ami idõ (kísérltek, tesztek, nem várt problémák), vagy valakitõl meg kell venned a technológiát.

Az ûrben szörfölünk vagy a töménytelen ürességben? Mindegy.
Az Internet nem a valóság, csak annak egy kivetülése az agyunkban.

Azért az is durva hogy azt sem vagyunk képesek felfogni amit mi alkottunk, akk nem tom hogy mit akarunk az univerzummal ami ettõl egy "picit" nagyobb

"Csak Michael Bergman készített 2001-ben egy átfogó anyagot. A szakember akkor úgy vélte: az ismeretlen világháló 400-550-szer nagyobb lehet az általunk jelenleg ismert webnél, de ez csak egy pontatlan és egyszerû becslés."
mintha az univerzum méretét találgatnák <#vigyor2>