Sg.hu - Csak az online anyagok töredéke érhető el jelenleg

2010. szeptember 22. 12:14, szerda

Berta Sándor

Csak az online anyagok töredéke érhető el jelenleg

A világhálón fellelhető adatok mennyisége egy ember számára szinte felfoghatatlan. Egy átlagos felhasználó, aki többnyire a Google-t vagy egy másik keresőt használ, ennek az információmennyiségnek csak egy apró részével szembesül.

A web egy jelentős része a mai napig elérhetetlen a keresők számára, ezáltal a cégek nem is tudják a rendszerükben indexálni ezeket a tartalmakat. Nem véletlen, hogy egy ideje a keresők többsége már nem mutatja ki, hogy hány oldalt indexált. "Úgy tűnik, hogy az index nagysága a nagyobb keresőket üzemeltető cégek számára egyáltalán nem fontos minőségi követelmény" - jegyezte meg Philipp Mayr, a Darmstadi Főiskola professzora.

Becslések alapján a Google és a többi online kereső csak a webre felkerülő tartalmak egy századát képes összegyűjteni és megjeleníteni. Azt ugyanakkor senki sem tudja, hogy pontosan mekkora is az online jelenlévő adatmennyiség. Mayr elmondta, hogy tudomása szerint nem is igazán léteznek az un. Deep Web nagyságáról szóló tanulmányok. Csak Michael Bergman készített 2001-ben egy átfogó anyagot. A szakember akkor úgy vélte: az ismeretlen világháló 400-550-szer nagyobb lehet az általunk jelenleg ismert webnél, de ez csak egy pontatlan és egyszerű becslés.

Más szakemberek, például Rüdiger Schneemann, a Berlini Műszaki Egyetem munkatársa úgy nyilatkoztak, hogy a még feltáratlan internet 10-50-szer nagyobb a jelenleg ismert világhálónál. Schneemann közölte: a számok biztos megtámadhatók, de tény, hogy az információk túlnyomó része nem található meg a ma ismert weben. Az adatok jelentős része vagy nem szabadon elérhető vagy a keresőprogramok technikai okokból nem férnek hozzájuk. Fontos, hogy nem is mindegyik információ lenne érdekes az átlagembereknek.

Philipp Mayr rámutatott: "A keresők által nem indexált adatok zöme valós idejű feljegyzés, időjárási vagy fizikai témájú fájl. Kérdéses viszont, hogy ezek mennyire lennének hasznosak az internetezőknek és mennyire kellene szerepelniük a keresőszolgáltatások online találatai között."

A webes tartalmak két módon kerülhetnek a Google és a többi keresőprogram adatbázisába: vagy a honlap tulajdonosa, üzemeltetője jelzi a cégeknek az információt, vagy a cégek által használt un. robotok találják meg a hivatkozást. Utóbbi esetben a robotok oldalról oldalra mennek és mindig a linkeket követik. A nem linkelt vagy az üzemeltetők által nem jelzett portálok értelemszerűen kimaradnak az adatbázisból.

Külön kategóriát képeznek a tudományos tartalmakat kínáló, anyagaikat csak egy meghatározott időpontban megjelentető, majd újra elzáró, illetve a kizárólag regisztrált látogatók számára elérhető oldalak. A megoldást ezeknél a Google Scholar jelentheti, amely kifejezetten a tudományos anyagokat gyűjti össze és teszi hozzáférhetővé. A Bright Planet amerikai cég pedig kifejezetten a Deep Web-információk felkutatására specializálta magát. A vállalat által használt szoftver automatikusan kérdésekkel bombázza a különböző online adatbázisokat és a találatokat indexálja. A szolgáltatást az elmúlt években elsősorban az amerikai titkosszolgálatok vették igénybe. Egyelőre azonban kérdéses, hogy ezek a megoldások hosszú távon is beválnak-e vagy sem.

Informatika és tudomány

Csak az online anyagok töredéke érhető el jelenleg

Hozzászólások

Bejelentkezés