• Rive
    #89
    1. A clustereknél a feladat szinkronizálása, az egyes taszkok kiosztása egy, a gépenként különálló operációs rendszer fölött futó alkalmazás feladata. Igy aztán egy cluster maximum user-szinten tekinthető multiprocessing-nek.

    2. A valódi multiprocessing-nél a processzorok mindegyike látja a teljes memóriát: ez a szorosan csatolt rendszerek lényege. Ilyen a Hammer-család is, bár a hardver megvalósításnak van némi köze a lazán csatolt rendszerekhez.

    A 2. esetben a legtöbb gondot az okozza, hogy hardver-szinten biztosítani kell a memória-validációt. Ez azt jelenti, hogy mivel több processzor lokális cache-memóriájában is előfordulhat ugyanaz az adat, ezeknek meg kell egyezniük, különben baj van. Ennek a biztosítására külön protokollokat dolgoztak ki megosztott buszra: közös jellemzőjük, hogy amikor azonos memóriaterületről dolgozik a két (több) proci, akkor cefetül lelassítják a buszt. Valamint: a központi memória sávszélességén osztozik az összes processzor. Ezt a vonalat erőlteti az Intel: szimplán, mert nem olyan egyszerű kidolgozni más típusú megoldásokat. Ebben bizony az AMD nagyot dobott. Ugyanakkor az IA64-nél az 512 processzor parasztvakítás: 23M/sec jut egy processzorra, de ebből még lejön a validációra és a busz-kiosztásra forduló sávszélesség is, ami igen tetemes. Jó, ha 10 M/sec jut egy procira... Mint egy 486SX... De az is csak azért, mert maga a proci jobb. Az ennyi processzort tartalmazó gépeknél máshogy fürtözik a processzorokat: nyolcnál többet nem raknak egy buszra - véletlenül éppen ennyi Hammert lehet egymás mellé tenni...

    AMD, Hammer: minden processzornak különálló memória-tere van, dedikált sávszélességgel. Mindegyik processzor számára lehetőség van a többi processzorhoz kapcsolt memóriaterületek elérésére, de ez a HT linken keresztül történik, pont-pont átvitellel, lassabban, mint a saját memória kezelése. A HT linkeken csak a memória-validációs adatok utaznak, így nem befolyásolják a saját memória elérését. Azaz: a rendszer HW a legalsó szinten lazán csatoltnak tűnik, de a SW számára szorosan csatolt rendszerfelépítést biztosít. Az effektív memória-sávszélesség egyenes arányban nől a processzorok számával, és a validáció sem lassítja számottevően a rendszert. Meg tudták csinálni, ráadásul eleve gondoltak az adatutak optimalizációjára is.

    A 'miért pont az AMD'-féle érveknek igazából nincs súlyuk. Miért pont az IBM? Vagy az Intel? Vagy az MS? Mert valakinek a cégnél eszébe jutott, és megcsinálta. Ennyi.

    Igen, a 32 bites Win fut rajta. Ha teljes sebességgel beindul a verda, akkor 3400+ jelzést kap majd a proci. Fizikailag talán 2.4-2.6 GHz, nem tudom. Ehhez mérten már a 64-bites pluginek is csak extrának számítanak... A vadiúj megoldásokat felvonultató ugrás-előrejelzésről, és a branch-miss recovery-ről már ne is beszéljünk...

    A vonalvastagság és az órajel között messze nem lineáris az összefüggés. Egy kevesebb lipeline-stage-t tartalmazó processzor kisebb órajelen megy, viszont nagyobb párhuzamossággal, kisebb latency-vel.