SG.hu·

Az internet mélyét kutatja a DeepPeep

Ugyan a Google több tízmillió címet indexelt fel az interneten, a világháló még bővelkedik titkokban.

A Google webindexe, legyen bármennyire is hatalmas és részletes, a teljes internetnek csupán a töredékét öleli fel. Különböző adatbázisokban óriási információmennyiségek tornyosulnak. Ezek között éppúgy vannak vásárlási katalógusok, mint repülési tervek, menetrendek, elfeledett tudományos munkák és más anyagok. Ezekhez a tartalmakhoz hagyományos kutatási módszerekkel gyakorlatilag lehetetlen lenne hozzáférni. Éppen ezért indították el nemzetközi kutatók a DeepPeep programot, amelynek célja az elrejtett webes tartalmak megtalálása, azonosítása, rendszerezése.

A szakemberek a nem mindennapi munka során új technológiákat használnak fel. Az egyik legérdekesebb téma annak kiderítése, hogy a rejtett adatbázisok titkai miként hozhatók a felszínre. A keresők úgynevezett robotokat (crawlereket) használnak, amelyek végigmennek a honlapok hivatkozásain, majd azoknak a hivatkozásain a végtelenségig, és így gyűjtik össze a szükséges információkat. A keresők azonban gyorsan elakadnak a rejtett adatbázisok kapujában. Az Utahi Egyetem DeepPeep projektje ezen akar változtatni és szeretné, ha az eddig feltáratlan tartalmakhoz az átlag felhasználók éppúgy hozzáférhetnének, mint a tudósok.

Első lépésként a kutatók különböző tesztkérdésekkel és fogalmakkal próbálják felderíteni az adatbázisok méretét, valamint elemezni a kapott válaszokat. "Így megtanítható ezeknek a rendszereknek, hogy mely szavak és fogalmak érdekelnek minket és később ők is segíthetnek nekünk azáltal, hogy megmondják, mely szavakra és fogalmakra keressünk rá. A célzott keresésekkel idővel az adatbázisok tartalmának több mint 90 százalékát érhetjük majd el" - nyilatkozta Juliana Freire projektvezető.

Az alapvető problémát az jelenti, hogy a keresőknek meg kell tanítani annak felismerését, hogy melyik kutatáshoz melyik adatbázis kínálhatja a legmegfelelőbb választ. A területtel foglalkozik a Google egy kutatócsoportja is, Alon Halevy vezetésével. Vannak azonban olyanok is, akik más úton indultak el. "A legtöbb kereső megpróbálja megtalálni a tűt a szénakazalban. Mi ezzel ellentétben abban próbálunk meg segíteni, hogy előzetesen átkutatjuk a szénakazlat" - hangsúlyozta Anand Rajaraman, a Kosmix cég társalapítója.

Abban viszont szinte az összes szakember egyetért, hogy a legnagyobb kihívás az lesz majd, amikor az adatbázisok tartalmát integrálni kell a jelenlegi keresők webindexébe. "A keresőket fejlesztő cégek szeretnének javítani a programjaik használhatóságán, de vigyázniuk kell és nagyon óvatosan szabad csak változtatniuk, mert ha rosszul döntenek, könnyen lehet, hogy elnémítják a felhasználókat" - közölte Chris Sherman, a Search Engine Land kereső- és keresési marketing platform munkatársa.

Kapcsolódó cikkek és linkek

Hozzászólások

Jelentkezz be a hozzászóláshoz.

© NEXUS62009. 02. 25.. 18:19||#6
Mer nem falun nütté föl mint én!
<#vigyor>
© snowkid162009. 02. 25.. 18:12||#5
"A legtöbb keresõ megpróbálja megtalálni a tût a szénakazalban. Mi ezzel ellentétben abban próbálunk meg segíteni, hogy elõzetesen átkutatjuk a szénakazlat".
Szénakazlat én még nem láttam 😄
© who am I 72009. 02. 25.. 10:39||#4
már ott van...és te leszel az elsõ áldozat <#felkialtas>
© Landro2009. 02. 25.. 09:56||#3
Talán lehetne akkor kezdeni a Google saját adatbázisaival.
© gettoharcos22009. 02. 25.. 03:10||#2
<#eljen>
© idebudanemoda2009. 02. 24.. 23:30||#1
jaj, csak nehogy a terroristák...rossz rágondolni is...