Berta Sándor

Csak az online anyagok töredéke érhető el jelenleg

A világhálón fellelhető adatok mennyisége egy ember számára szinte felfoghatatlan. Egy átlagos felhasználó, aki többnyire a Google-t vagy egy másik keresőt használ, ennek az információmennyiségnek csak egy apró részével szembesül.

A web egy jelentős része a mai napig elérhetetlen a keresők számára, ezáltal a cégek nem is tudják a rendszerükben indexálni ezeket a tartalmakat. Nem véletlen, hogy egy ideje a keresők többsége már nem mutatja ki, hogy hány oldalt indexált. "Úgy tűnik, hogy az index nagysága a nagyobb keresőket üzemeltető cégek számára egyáltalán nem fontos minőségi követelmény" - jegyezte meg Philipp Mayr, a Darmstadi Főiskola professzora.

Becslések alapján a Google és a többi online kereső csak a webre felkerülő tartalmak egy századát képes összegyűjteni és megjeleníteni. Azt ugyanakkor senki sem tudja, hogy pontosan mekkora is az online jelenlévő adatmennyiség. Mayr elmondta, hogy tudomása szerint nem is igazán léteznek az un. Deep Web nagyságáról szóló tanulmányok. Csak Michael Bergman készített 2001-ben egy átfogó anyagot. A szakember akkor úgy vélte: az ismeretlen világháló 400-550-szer nagyobb lehet az általunk jelenleg ismert webnél, de ez csak egy pontatlan és egyszerű becslés.


Más szakemberek, például Rüdiger Schneemann, a Berlini Műszaki Egyetem munkatársa úgy nyilatkoztak, hogy a még feltáratlan internet 10-50-szer nagyobb a jelenleg ismert világhálónál. Schneemann közölte: a számok biztos megtámadhatók, de tény, hogy az információk túlnyomó része nem található meg a ma ismert weben. Az adatok jelentős része vagy nem szabadon elérhető vagy a keresőprogramok technikai okokból nem férnek hozzájuk. Fontos, hogy nem is mindegyik információ lenne érdekes az átlagembereknek.

Philipp Mayr rámutatott: "A keresők által nem indexált adatok zöme valós idejű feljegyzés, időjárási vagy fizikai témájú fájl. Kérdéses viszont, hogy ezek mennyire lennének hasznosak az internetezőknek és mennyire kellene szerepelniük a keresőszolgáltatások online találatai között."

A webes tartalmak két módon kerülhetnek a Google és a többi keresőprogram adatbázisába: vagy a honlap tulajdonosa, üzemeltetője jelzi a cégeknek az információt, vagy a cégek által használt un. robotok találják meg a hivatkozást. Utóbbi esetben a robotok oldalról oldalra mennek és mindig a linkeket követik. A nem linkelt vagy az üzemeltetők által nem jelzett portálok értelemszerűen kimaradnak az adatbázisból.

Külön kategóriát képeznek a tudományos tartalmakat kínáló, anyagaikat csak egy meghatározott időpontban megjelentető, majd újra elzáró, illetve a kizárólag regisztrált látogatók számára elérhető oldalak. A megoldást ezeknél a Google Scholar jelentheti, amely kifejezetten a tudományos anyagokat gyűjti össze és teszi hozzáférhetővé. A Bright Planet amerikai cég pedig kifejezetten a Deep Web-információk felkutatására specializálta magát. A vállalat által használt szoftver automatikusan kérdésekkel bombázza a különböző online adatbázisokat és a találatokat indexálja. A szolgáltatást az elmúlt években elsősorban az amerikai titkosszolgálatok vették igénybe. Egyelőre azonban kérdéses, hogy ezek a megoldások hosszú távon is beválnak-e vagy sem.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • Utokverek #7
    kis off:
    Indexálja?
    inkább indexeli, nem?
  • hdo #6
    Te bajod ... én _mindent_ megtalálok amire szükségem van, a 73 éves filmektől elkezdve, a kedvenc zenéken/könyveken keresztül a különféle publikációkig ami a munkámhoz kell ... és még sok mást.

    Persze tény és való, hogy ehhez az is szükségeltetik, hogy kellően nagy legyen egy adott nyelvű ország jelenléte a világhálón. Így például - ha már film volt az első példám - az 1956-os Háború és Béke filmet a maga ~30 éves magyar szinkronjával a büdös életben nem találod meg, mert úgymond a kutyát sem érdekel egy világszerte mindössze 14 millió beszélőt számláló nyelv. Ilyenkor vagy tudsz egy oldalról ahol véletlenül éppen fenn van, vagy nem. Rákeresni nem fogsz tudni.
  • NullZ3r0 #5
    Tökéletesen igaz. A mítosz, hogy "a neten minden fent van" hamis. Legalábbis abban a formában, ahogy az illetők értik. Nincs fent minden mindenki számára elérhető formában, én már sokszor beleütköztem ebbe a korlátba.
  • lamer the true #4
    A "világháló" != "web"

    Még hogy a világháló 550-szer nagyob? Talán inkább 1 milliószor. A védett adatbázisok, vpn-es Lan-ok gépei, ftp-k, egyéb fájlszerverek, intézményi archivumok, meg ezer egyéb, amit a világháló tartalmaz ,nagyságrendekkel több adatot képviselnek, mint a "web". Mert mi a web? Amit a böngésződ képes megjeleníteni? A keresők csak szándékosan közzétett, vagy végtelenül gyenge biztonságú hálózatok adatait indexelhetik.

    Ha bármi igazán komolyat szeretnél készíteni (mittomén napelem pl.) rájössz, hogy az ördög a részletekben van. Ezeket a részleteket nem fogod megtalálni a weben.

    Persze találsz majd mindenféle elméleti magyarázatot, de semmi olyat, amiből profitálhatnál. Vagy megcsinálod magad, ami idő (kísérltek, tesztek, nem várt problémák), vagy valakitől meg kell venned a technológiát.
  • Zoliz #3
    Az űrben szörfölünk vagy a töménytelen ürességben? Mindegy.
    Az Internet nem a valóság, csak annak egy kivetülése az agyunkban.
  • mynameisbence #2
    Azért az is durva hogy azt sem vagyunk képesek felfogni amit mi alkottunk, akk nem tom hogy mit akarunk az univerzummal ami ettől egy "picit" nagyobb
  • 3LVW #1
    "Csak Michael Bergman készített 2001-ben egy átfogó anyagot. A szakember akkor úgy vélte: az ismeretlen világháló 400-550-szer nagyobb lehet az általunk jelenleg ismert webnél, de ez csak egy pontatlan és egyszerű becslés."
    mintha az univerzum méretét találgatnák