Berta Sándor
Az internet mélyét kutatja a DeepPeep
Ugyan a Google több tízmillió címet indexelt fel az interneten, a világháló még bővelkedik titkokban.
A Google webindexe, legyen bármennyire is hatalmas és részletes, a teljes internetnek csupán a töredékét öleli fel. Különböző adatbázisokban óriási információmennyiségek tornyosulnak. Ezek között éppúgy vannak vásárlási katalógusok, mint repülési tervek, menetrendek, elfeledett tudományos munkák és más anyagok. Ezekhez a tartalmakhoz hagyományos kutatási módszerekkel gyakorlatilag lehetetlen lenne hozzáférni. Éppen ezért indították el nemzetközi kutatók a DeepPeep programot, amelynek célja az elrejtett webes tartalmak megtalálása, azonosítása, rendszerezése.
A szakemberek a nem mindennapi munka során új technológiákat használnak fel. Az egyik legérdekesebb téma annak kiderítése, hogy a rejtett adatbázisok titkai miként hozhatók a felszínre. A keresők úgynevezett robotokat (crawlereket) használnak, amelyek végigmennek a honlapok hivatkozásain, majd azoknak a hivatkozásain a végtelenségig, és így gyűjtik össze a szükséges információkat. A keresők azonban gyorsan elakadnak a rejtett adatbázisok kapujában. Az Utahi Egyetem DeepPeep projektje ezen akar változtatni és szeretné, ha az eddig feltáratlan tartalmakhoz az átlag felhasználók éppúgy hozzáférhetnének, mint a tudósok.
Első lépésként a kutatók különböző tesztkérdésekkel és fogalmakkal próbálják felderíteni az adatbázisok méretét, valamint elemezni a kapott válaszokat. "Így megtanítható ezeknek a rendszereknek, hogy mely szavak és fogalmak érdekelnek minket és később ők is segíthetnek nekünk azáltal, hogy megmondják, mely szavakra és fogalmakra keressünk rá. A célzott keresésekkel idővel az adatbázisok tartalmának több mint 90 százalékát érhetjük majd el" - nyilatkozta Juliana Freire projektvezető.
Az alapvető problémát az jelenti, hogy a keresőknek meg kell tanítani annak felismerését, hogy melyik kutatáshoz melyik adatbázis kínálhatja a legmegfelelőbb választ. A területtel foglalkozik a Google egy kutatócsoportja is, Alon Halevy vezetésével. Vannak azonban olyanok is, akik más úton indultak el. "A legtöbb kereső megpróbálja megtalálni a tűt a szénakazalban. Mi ezzel ellentétben abban próbálunk meg segíteni, hogy előzetesen átkutatjuk a szénakazlat" - hangsúlyozta Anand Rajaraman, a Kosmix cég társalapítója.
Abban viszont szinte az összes szakember egyetért, hogy a legnagyobb kihívás az lesz majd, amikor az adatbázisok tartalmát integrálni kell a jelenlegi keresők webindexébe. "A keresőket fejlesztő cégek szeretnének javítani a programjaik használhatóságán, de vigyázniuk kell és nagyon óvatosan szabad csak változtatniuk, mert ha rosszul döntenek, könnyen lehet, hogy elnémítják a felhasználókat" - közölte Chris Sherman, a Search Engine Land kereső- és keresési marketing platform munkatársa.
A Google webindexe, legyen bármennyire is hatalmas és részletes, a teljes internetnek csupán a töredékét öleli fel. Különböző adatbázisokban óriási információmennyiségek tornyosulnak. Ezek között éppúgy vannak vásárlási katalógusok, mint repülési tervek, menetrendek, elfeledett tudományos munkák és más anyagok. Ezekhez a tartalmakhoz hagyományos kutatási módszerekkel gyakorlatilag lehetetlen lenne hozzáférni. Éppen ezért indították el nemzetközi kutatók a DeepPeep programot, amelynek célja az elrejtett webes tartalmak megtalálása, azonosítása, rendszerezése.
A szakemberek a nem mindennapi munka során új technológiákat használnak fel. Az egyik legérdekesebb téma annak kiderítése, hogy a rejtett adatbázisok titkai miként hozhatók a felszínre. A keresők úgynevezett robotokat (crawlereket) használnak, amelyek végigmennek a honlapok hivatkozásain, majd azoknak a hivatkozásain a végtelenségig, és így gyűjtik össze a szükséges információkat. A keresők azonban gyorsan elakadnak a rejtett adatbázisok kapujában. Az Utahi Egyetem DeepPeep projektje ezen akar változtatni és szeretné, ha az eddig feltáratlan tartalmakhoz az átlag felhasználók éppúgy hozzáférhetnének, mint a tudósok.
Első lépésként a kutatók különböző tesztkérdésekkel és fogalmakkal próbálják felderíteni az adatbázisok méretét, valamint elemezni a kapott válaszokat. "Így megtanítható ezeknek a rendszereknek, hogy mely szavak és fogalmak érdekelnek minket és később ők is segíthetnek nekünk azáltal, hogy megmondják, mely szavakra és fogalmakra keressünk rá. A célzott keresésekkel idővel az adatbázisok tartalmának több mint 90 százalékát érhetjük majd el" - nyilatkozta Juliana Freire projektvezető.
Az alapvető problémát az jelenti, hogy a keresőknek meg kell tanítani annak felismerését, hogy melyik kutatáshoz melyik adatbázis kínálhatja a legmegfelelőbb választ. A területtel foglalkozik a Google egy kutatócsoportja is, Alon Halevy vezetésével. Vannak azonban olyanok is, akik más úton indultak el. "A legtöbb kereső megpróbálja megtalálni a tűt a szénakazalban. Mi ezzel ellentétben abban próbálunk meg segíteni, hogy előzetesen átkutatjuk a szénakazlat" - hangsúlyozta Anand Rajaraman, a Kosmix cég társalapítója.
Abban viszont szinte az összes szakember egyetért, hogy a legnagyobb kihívás az lesz majd, amikor az adatbázisok tartalmát integrálni kell a jelenlegi keresők webindexébe. "A keresőket fejlesztő cégek szeretnének javítani a programjaik használhatóságán, de vigyázniuk kell és nagyon óvatosan szabad csak változtatniuk, mert ha rosszul döntenek, könnyen lehet, hogy elnémítják a felhasználókat" - közölte Chris Sherman, a Search Engine Land kereső- és keresési marketing platform munkatársa.