Berta Sándor

Az internet mélyét kutatja a DeepPeep

Ugyan a Google több tízmillió címet indexelt fel az interneten, a világháló még bővelkedik titkokban.

A Google webindexe, legyen bármennyire is hatalmas és részletes, a teljes internetnek csupán a töredékét öleli fel. Különböző adatbázisokban óriási információmennyiségek tornyosulnak. Ezek között éppúgy vannak vásárlási katalógusok, mint repülési tervek, menetrendek, elfeledett tudományos munkák és más anyagok. Ezekhez a tartalmakhoz hagyományos kutatási módszerekkel gyakorlatilag lehetetlen lenne hozzáférni. Éppen ezért indították el nemzetközi kutatók a DeepPeep programot, amelynek célja az elrejtett webes tartalmak megtalálása, azonosítása, rendszerezése.

A szakemberek a nem mindennapi munka során új technológiákat használnak fel. Az egyik legérdekesebb téma annak kiderítése, hogy a rejtett adatbázisok titkai miként hozhatók a felszínre. A keresők úgynevezett robotokat (crawlereket) használnak, amelyek végigmennek a honlapok hivatkozásain, majd azoknak a hivatkozásain a végtelenségig, és így gyűjtik össze a szükséges információkat. A keresők azonban gyorsan elakadnak a rejtett adatbázisok kapujában. Az Utahi Egyetem DeepPeep projektje ezen akar változtatni és szeretné, ha az eddig feltáratlan tartalmakhoz az átlag felhasználók éppúgy hozzáférhetnének, mint a tudósok.

Első lépésként a kutatók különböző tesztkérdésekkel és fogalmakkal próbálják felderíteni az adatbázisok méretét, valamint elemezni a kapott válaszokat. "Így megtanítható ezeknek a rendszereknek, hogy mely szavak és fogalmak érdekelnek minket és később ők is segíthetnek nekünk azáltal, hogy megmondják, mely szavakra és fogalmakra keressünk rá. A célzott keresésekkel idővel az adatbázisok tartalmának több mint 90 százalékát érhetjük majd el" - nyilatkozta Juliana Freire projektvezető.

Az alapvető problémát az jelenti, hogy a keresőknek meg kell tanítani annak felismerését, hogy melyik kutatáshoz melyik adatbázis kínálhatja a legmegfelelőbb választ. A területtel foglalkozik a Google egy kutatócsoportja is, Alon Halevy vezetésével. Vannak azonban olyanok is, akik más úton indultak el. "A legtöbb kereső megpróbálja megtalálni a tűt a szénakazalban. Mi ezzel ellentétben abban próbálunk meg segíteni, hogy előzetesen átkutatjuk a szénakazlat" - hangsúlyozta Anand Rajaraman, a Kosmix cég társalapítója.

Abban viszont szinte az összes szakember egyetért, hogy a legnagyobb kihívás az lesz majd, amikor az adatbázisok tartalmát integrálni kell a jelenlegi keresők webindexébe. "A keresőket fejlesztő cégek szeretnének javítani a programjaik használhatóságán, de vigyázniuk kell és nagyon óvatosan szabad csak változtatniuk, mert ha rosszul döntenek, könnyen lehet, hogy elnémítják a felhasználókat" - közölte Chris Sherman, a Search Engine Land kereső- és keresési marketing platform munkatársa.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • NEXUS6 #6
    Mer nem falun nütté föl mint én!
  • snowkid16 #5
    "A legtöbb kereső megpróbálja megtalálni a tűt a szénakazalban. Mi ezzel ellentétben abban próbálunk meg segíteni, hogy előzetesen átkutatjuk a szénakazlat".
    Szénakazlat én még nem láttam :D
  • who am I 7 #4
    már ott van...és te leszel az első áldozat
  • Landro #3
    Talán lehetne akkor kezdeni a Google saját adatbázisaival.
  • gettoharcos2 #2
  • idebudanemoda #1
    jaj, csak nehogy a terroristák...rossz rágondolni is...