Berta Sándor
A szuperszámítógépek is hibáznak
Az elmúlt években világszerte egyre több nagy teljesítményű számítógépet helyeztek üzembe. A teljesítmény növelése mellett fontossá vált az is, hogy ezek a rendszerek megbízhatóbbak legyenek.
Számos tudós és mérnök foglalkozik világszerte azzal, hogy megbízhatóvá tegye a szuperszámítógépeket. Mindez közel sem egyszerű feladat, hiszen több ezer processzor, memória és más alkatrészek működését kell összehangolni és optimalizálni. Teljesen normális dolog, hogy időnként ezek a rendszerek meghibásodnak, elromlik az egyik alkatrészük. A cél a két meghibásodás közötti idő meghosszabbítása.
Az Amerikai Egyesült Államok Lawrence Livermore Nemzeti Laboratóriumában működő Accelerated Strategic Computing Initiative (ASCI) szuperszámítógép működésében már 2001-ben átlagosan minden ötödik órában hibát jegyeztek fel. A különböző optimalizálásoknak és az új technológiák használatának köszönhetően sikerült ezt az időt 55 órára kitolni. Azóta azonban a szuperszámítógépek még nagyobb teljesítményűek lettek és ez a folyamat a jövőben sem fog megváltozni. A napjainkban elérhető hibajavító technológiák néhány év múlva már nem lesznek elegendőek, ezért a szakemberek komoly kihívás előtt állnak.
A szakértők számos megoldáson dolgoznak. Ana Gainaru, az Illinois Egyetem munkatársa most egy olyan technológiát mutatott be, amely a naplóadatok elemzése alapján lehetővé teszi a jövőbeli hibák felbukkanásának előrejelzését és ellenintézkedések bevezetését. Az első eredmények biztatóak, a rendszernek az esetek több mint 70 százalékában több mint 10 másodperc ideje marad az összeomlás vagy fagyás előtt az addigi eredmények eltárolására. Később a munka a legutóbbi mentéstől folytatható.
Számos tudós és mérnök foglalkozik világszerte azzal, hogy megbízhatóvá tegye a szuperszámítógépeket. Mindez közel sem egyszerű feladat, hiszen több ezer processzor, memória és más alkatrészek működését kell összehangolni és optimalizálni. Teljesen normális dolog, hogy időnként ezek a rendszerek meghibásodnak, elromlik az egyik alkatrészük. A cél a két meghibásodás közötti idő meghosszabbítása.
Az Amerikai Egyesült Államok Lawrence Livermore Nemzeti Laboratóriumában működő Accelerated Strategic Computing Initiative (ASCI) szuperszámítógép működésében már 2001-ben átlagosan minden ötödik órában hibát jegyeztek fel. A különböző optimalizálásoknak és az új technológiák használatának köszönhetően sikerült ezt az időt 55 órára kitolni. Azóta azonban a szuperszámítógépek még nagyobb teljesítményűek lettek és ez a folyamat a jövőben sem fog megváltozni. A napjainkban elérhető hibajavító technológiák néhány év múlva már nem lesznek elegendőek, ezért a szakemberek komoly kihívás előtt állnak.
A szakértők számos megoldáson dolgoznak. Ana Gainaru, az Illinois Egyetem munkatársa most egy olyan technológiát mutatott be, amely a naplóadatok elemzése alapján lehetővé teszi a jövőbeli hibák felbukkanásának előrejelzését és ellenintézkedések bevezetését. Az első eredmények biztatóak, a rendszernek az esetek több mint 70 százalékában több mint 10 másodperc ideje marad az összeomlás vagy fagyás előtt az addigi eredmények eltárolására. Később a munka a legutóbbi mentéstől folytatható.