Dojcsák Dániel

Mitől hal meg az Internet? - Interjú

Aki napközben internetezik, annak feltűnhetett, hogy május 3-án déltől koradélutánig félig beomlott a magyar net pusztán attól, hogy a T-Online Adatparkja katasztrófát szenvedett. Ennek az összeomlásnak a részleteiről, majd a második oldalon az iWiW technológia hátteréről kérdeztük a T-Online informatikai főguruját, Tüdős Andrást.

SG.hu: Az interjú készítése előtt néhány perccel egy szívhez szóló előadást hallhattunk öntől arról, hogy mennyire jó ütemben fejlődnek és milyen biztonságosak és gyorsak a szerverfarmok hazánkban, főként a T-Online háza táján. Nemrég mégis megfeküdt néhány órára az Adatpark és az ország nagy részén nem lehetett felcsatlakozni ADSL-lel. Mi történt? Hogy történhet ez?
Tüdős A.: Nehéz ezt megválaszolni, talán az kicsit túlzás, hogy nem volt az egész országban ADSL, hiszen vannak tartalék rendszerek, csak természetesen korlátozott kapacitással. A mi bejelentkezési megoldásunk a T-Com proxy szerverei mögött helyezkedik el és az ADSL problémákat az okozta, hogy nem bírták a szerverek a hirtelen megnövekedett terhelést és a T-Com szerverek is belassultak.

SG.hu: Mi volt az igazi hiba? Sok a találgatás, de halljuk az igazságot! (laikusok lapozzanak!)
Tüdős A.: Gondolom a kérdés lényege, hogy mitől alakulhat ki ilyen katasztrófahelyzet egy teljesen redundáns hálózatban és ha mondhatok mélyebb műszaki dolgokat, akkor megpróbálom röviden felvázolni. A lényeg a következő: az adatközpontunkban egy layer 2-es hálózatot üzemeltetünk, azaz egy több száz switchből álló rendszert, aminél kétszer is beleütköztünk egy olyan technológiai gyengeségbe, ami láncreakció szerű összeomlást idézett elő. Az első alkalommal a hálózat egyik eszközére csatlakozó ügyfél tulajdonú szervert fertőzés ért és olyan hibás forgalmat bocsátott ki magából, amit a régebbi típusú eszköz nem tudott feldolgozni és a hibás működése a többi hálózati eszközt is megbénította. A hiba feltárása során az egyik core switch újraindítása sikertelen volt és fizikai hozzáférésre volt szükség a helyreállításhoz, ami ezért lassabb volt a normálisnál.

A második alkalommal a részleges leállás oka egy konfigurációs hiba volt, mégpedig a hálózat egyik linkjén egy hibás beállítás volt, mely link fizikailag nem létezett: egy hosztolt ügyfélhez tartozó switch második uplinkje nem volt bekötve. A probléma akkor történt, amikor az ügyfél switch és a saját hálózat közti filterünk (ami felügyel a forgalomra és arra, hogy ne jöhessen létre hurok. Ez a filter azt feltételezi, hogy a két hálózat között mindig csak egy élő kapcsolat van) nem tudta kezelni azt a helyzetet, hogy egy ilyen switch átkerült a belső hálózatunkba és a kollégák redundáns kapcsolatot hoztak létre rajta. Ráadásul ennek a konfigurációs hibának az eredménye nem azonnal jelentkezett, hanem egy fél órával később került olyan állapotba a hálózat hogy egy belső hurok alakult ki, amit ismét nem tudtak lekezelni az eszközeink és szépen sorban összeomlottak.

SG.hu: Mennyi idő alatt sikerült visszaállítani a rendet? A BIX diagramon látszik, hogy kb. 1,5 óra volt a tényleges kiesés, de visszajelzések szerint három óránál tovább is eltartott a talpraállás.
Tüdős A.: Másfél óra volt a kiesés az első alkalommal, a második alkalommal a részleges kiesés kb. egy órás volt. Persze sajnos előfordulhatott, hogy voltak olyan rendszerek, amik lassabban álltak helyre.

SG.hu: Mit tesznek azért, hogy ilyen ne fordulhasson elő többé?
Tüdős A.: Természetesen technológiát frissítünk és csökkentjük az ilyen katasztrófális hiba előfordulásának esélyeit. Azokat az eszközöket, amelyek régebbiek és nincsenek felkészülve ilyen esetekre lecseréljük és ilyen helyzetet túl fognak élni, mert normál helyzetben le kell tudni kezelni ilyen hurok helyzeteket. A másik probléma viszont az, hogy túl nagy a Layer 2-es hálózat, azaz túl sok minden van egy L2 domainen belül, ezért tovább szegmentálunk kisebb egységekre. Leválasztjuk teljesen a hosztingot a saját szolgáltató rendszerekről, a hátsó rendszereink korábbi leválasztásához hasonlóan az internet felé néző hálózatokat is megbontjuk hamarosan.

A BIX kicserélőpont forgalma az utóbbi egy évben

SG.hu: A gerinchálózatok adatforgalmi grafikonjait nézegetve stabil, de lassú növekedés látható az összes adatforgalomban. A közelmúltban egyes IT-ben szakbarbár jogvédők azt nyilatkozták, hogy számításaik szerint a szolgáltatók adatforgalmának jelentős, kétharmad részét fájlcserélő alkalmazások forgalma teszi ki. Mi igaz ebből?
Tüdős A.: Erre nagyon nehéz válaszolni, mert nincsenek ilyen méréseink, hiszen nem tudjuk és nem is akarjuk vizsgálni az ügyfelek egymás közti adatforgalmát. Persze mintavételes mérések vannak, aktuális számadatokat most nem tudok mondani, viszont mi is látjuk hogy valóban nagy az ilyen adatforgalom, de jelentősen kisebb, mint a valós tartalomszolgáltatók irányából érkező adatforgalom. Ha összevetjük a különböző irányokból kimenő/bejövő forgalmi adatokat, akkor nincs nagyságrendi eltérés. Becsléseink szerint maximum 30% lehet a forgalomból a felhasználók egymás közti adatcseréje.

SG.hu: A közeljövőben a T-Online és egyéb szolgáltatók is számos multimédiás szolgáltatás beindítását tervezik. Ehhez milyen felhasználói oldali illetve szerver oldali fejlesztésekre van szükség?
Tüdős A.: Természetesen a DSLAM-ek (Digiális Előfizetői Vonal Elérés Többszöröző) cseréje folyamatosan zajlik ADSL2+-ot is tudó típusokra, az újak pedig már mind ilyenek. De a legnagyobb ugrás mégis az, hogy a gerinchálózatok és a DSLAM-ek közti ATM vonalakat mindenhol Gigabites sávokra cseréljük. Innentől kezdve már nem a gerinc lesz a szűk keresztmetszet, hanem a DSLAM.

A régebbi típusok nem tudnak Multicastot (IPTV-hez kell) kezelni, nem tudnak ADSL2+-t (12 Mbites eléréshez kell) kezelni, sőt vannak olyanok, amik a Gigabites uplinket sem tudják befogadni. Emiatt ha olyan előfizető szeretne váltani IPTV-re aki régi eszközökön futott eddig, akkor egy fizikai átkötést is végre kell hajtani nála. Jelenleg nem megoldható, hogy egyidejűleg minden eszközt kicseréljenek a T-Com oldalán.

SG.hu: Megterheli ez a T-Com-ot?
Tüdős A.: Alapjában véve ezek a cserék nem jelentenek gondot, mert ahogy a mennyiségi növekedés miatt szerzünk be új eszközöket, úgy minőségileg is javulunk, mert nem is lehet már más eszközöket kapni, mint ami támogat minden új technológiát. A baj inkább a rézdróttal, azok hosszával és minőségével van, az okoz komoly fejtörést. Ettől függ, hogy az előfizetők mekkora részét tudjuk valóban nagy sávszélességre rakni. Jelenleg úgy látjuk, hogy az előfizetői szakaszok 60-70%-a alkalmas IPTV-re. Akik távolabb laknak a DSLAM-októl azoknál lehet gond. A Magyar Telekom hosszabb távon tervezi, hogy az utcai kábelrendezőkig elviszi az optikai hálózatokat, illetve sok helyen a házakig is eljuthat az optika.

SG.hu: A nagyvárosokkal ezek szerint nem lesz gond. Ellenben a kistelepüléseken még az erősnek mondható kormányzati szándék ellenére sincsenek elfogadható megoldások. A szolgáltató tesz-e valamit ez ügyben?
Tüdős A.: Mi amit tudunk tenni, hogy ahol érdemi igény jelentkezett, oda eljutott szélessávú technológia, amiben főként a Közháló programnak volt nagy szerepe. Ráadásul a mai napig is működik az a rendszer, hogy azon a helyen ahol elegendő számú igény jelentkezik, ott létesítünk ADSL-t, de egy ember esetén ez nem gazdaságos. A következő probléma viszont a sávszélesség gond, ami jelentkezhet hosszú távon, mivel sok helyre nem ér el az optika és oda több bérelt vonalon vagy egyéb trükkel visszük a szélessávot. Ezeken a helyeken biztosan nem lesz IPTV. SG.hu: Evezzünk más vizekre. Nemrégiben vásárolták meg az iWiW-et. Túllendülve az elvi kérdéseken beszéljünk arról, hogy milyen ütemben haladnak az ígért szerver bővítések és vannak-e problémák, amik megállítják a folyamatot? Mik a fejlemények?
Tüdős A.: Igen nehéz vállalkozás egy nagyon magasan és gyorsan suhanó repülőgépre menet közben nagyobb szárnyakat, nagyobb motort szerelni úgy, hogy gyorsan célba is érjünk vele. Két hete folyamatosan toljuk alá az újabbnál újabb szervereket, de nagyon komplex rendszerekről van szó, így nem lehet egyszerűen hozzácsapni új elemeket, hanem költöztetni kell az adatokat. Ilyen sarkalatos pontok az üzenetküldés és a képszolgáltatás. A képek esetén hiába volt megfelelő szerverkapacitás, ha voltak a rendszerben szűk keresztmetszetek, ahol bedugultak az adatok. Ne felejtsük el, hogy itt több terabyteról beszélünk már most is.

SG.hu: A problémák főleg hardveres vagy szoftveres jellegűek?
Tüdős A.: Természetesen is-is. Hardverrel ugyan meg lehet oldani mindent, csak nem éri meg. Együttesen kell fejleszteni a területeket. Most főként új hardverek beállítása folyik, de közép és hosszú távon komoly szoftver fejlesztéseket kell végezni, de ezt nem lehet 1-2 hét alatt megoldani.

SG.hu: Tehát született egy döntés (az iWiW Kft. felvásárlása), ami után vért izzasztó az operatív rész?
Tüdős A.: Őszinte leszek: a döntés előtt is ugyanezek a problémák álltak fenn, csak más tulajdonosi struktúrában. Jelenleg is ugyanazok az emberek, ugyanúgy dolgoznak a rendszeren, csak lényegesen szélesebb eszköztárral. Korábban azért nem tudott tovább fejlődni az infrastruktúra, mert nem volt a tulajdonosnak megfelelő forrása a fejlesztésre. Eddig is mi adtunk mindent, persze üzleti alapon, így nem tudtunk elegendő vasat alá tenni.

Az átállás időbe kerül, ráadásul belefutottunk hibákba is, mint az üzenetküldés migrálása esetén, ami hátráltatja a folyamatokat. Olyan apró kihívásaink vannak, mint a 4 processzoros architektúráról való átállás 8 processzorosra az adatbázis átmentésével lehetőleg egy éjszaka alatt.

SG.hu: 1-2 hónap?
Tüdős A.: 1-2 hét! A terv az, hogy e hét végére a migrálások megtörténnek, és amilyen hamar tudjuk befejezzük a hardverek bővítését. A régi funkciók újra elérhetővé váltak és ráadásul megfelelő sebességgel működik most minden. Ez szükséges ahhoz, hogy tovább tudjunk lépni.

SG.hu: Ha az üzenetküldésnél járunk, akkor eszembe jutnak a körlevelek, az úgynevezett hoaxok. Mennyire terhelik ezek le a rendszert, van-e százalékos adat?
Tüdős A.: Konkrét statisztikáim nincsenek, de nagyon nagy terhelést jelent és a fejlesztés közben pont abból volt problémánk, hogy a kapacitásokat kimerítették ezek azáltal, hogy nagyon sok üzenet terjedt egyidejűleg. A lényegi probléma abban van, hogy ez a rosszindulat és az emberi butaság találkozása.

SG.hu: Nem akarják vagy nem tudják megállítani mesterségesen?
Tüdős A.: Vannak korlátozások, de hogy ne akadályozzuk az emberek szabad üzenetküldését és a körleveleket is megállítsuk, az nehéz feladat egyszerre. Komoly, szofisztikált tartalomszűréssel nem rendelkezünk, ennek beemelése nem is volt sosem napirenden az iWiW-vel kapcsolatban, bár lehetőség lenne rá, egyéb rendszerekben van rá példa, fejleszteni sem nehéz ilyet. Meg lehetne szigorítani nagyon az üzenetküldést, de most ott tartunk hogy ugyan bírjuk tárolókapacitással, de az igazi baj, hogy nagyon zavarja ez a felhasználókat, hiszen ez rosszabb, mint a spam, mert egyidejűleg sok példányban jut el mindenkihez.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • ZilogR #50
    kb. hasonló a sebesség a BME koleszokban: anno amikor én voltam koleszos (1999-2004)500Ft/hó volt a díj (mert 3kHUF/félév volt az fizetendő)

    -=ZR=-
  • HyperNurbs #49
    Átszámítva 1400Ft-ért/hó van 100Mbites netem Pozsonyban, igaz hogy koleszban de akkor is. gyakorlatbol tudom pl bithumenrol toltottem le 4.5MB/sel es fel pedig kb 2MB/sel egyszerre.. :)
    Éljen a SANET(Slovak Academic Network)
  • terbes #48
    TvNetwork rulez :) 1024k/384k mindez havi 6 ezer
    Kábel Tv-s, 1 éve van nekem, még egyszersem halt be, és nem pesti vagyok, hanem egy vidéki kisvárosban lakok (Baja)
  • airwalker #47
    Ez az egyetlen épkézláb írás az iwiw eladásával kapcsolatban. Végre valami igazán friss infó elsőkézből. Tetszik, hogy Tüdős András őszinte, nem üzletember módjára beszél.
  • shabba #46
    Jah ott.

    NorbyI,cSuwwi:
    Jól gondoljátok. Ez egy lokális ajánlat, egy Bp-i lakótelepen.
  • combat #45
    RubiCom Óbudán?
  • lee56 #44
    Énis kis KTV/Internet providernek fizetek 5K-t 512/128-ért. De aki aztmondja hogy T-kommnál bármi jobb azzal szivesen cserélnék, hátha +gondolja magát :D.
  • Reyes #43
    Nekem 512/512-es mikros netem van a Kábelnettől már másfél éve, és eddig 1-2-szer volt leállás, ha egyáltalán az ő részükről történt a dolog
  • DanyyX #42
    Emberek, nézzétek már meg, hogy a 'kis hülye kábel' és a 'nem t-offline' ki a ráknak a hálózatát használja? A t-online (MATÁV) gerinchálózatán kívül egyszerűen nincs más.
  • immovable #41
    Hiéna!!!
    Néköm 768/128 vagy mi a rák 2 éves kábel 7200 HuF:(