67
  • dez
    #27
    PPE-hez: persze nem árt, ha a sűrűbben hozzáfért adatok nagy része befér a cache-ekbe, vagy szekvenciálisan olvashatók a ramból, mert itt jóval nagyobb a latency, mint A64-nél. (De a sávszélesség is.)
  • dez
    #26
    Egy szóval sem mondtam, hogy pl. egy csúcs-Opteronnal is felveszi a versenyt a Cell PPE-je általános műveletvégzésben. De egy 386-nál, amit te mondtál, sokkal de sokkal jobb. Kb. egy 2GHz-es (3000+) A64-nek felel meg szerintem. (Egy jó fordító használatával.)

    (Az SPE-k sem csak a SIMD kódot ismerik, hanem a teljes PPC utasításkészletet, csak nem az órajelüknek megfelelő teljesítménnyel hajtják azokat végre.)

    Nem tudom, egy szuperszámítógépnél mekkora szükség van általános műveletvégzésre a matematikai számítások mellett, de ha van, akkor azért arra jól jönnek az Opteronok. Továbbá, szuperszámítógépről van szó, nagyon sok adat áramlik a procik között, ennek szervezésére és lebonyolítására is jól jön a segítség.
  • BiroAndras
    #25
    "Nem érted? Na ne mondd, tudod te azt"

    Az irónia nevű izéről hallottál már?
    De vehetjük úgy is, hogy a kérdés neked szól. Te bizonygatod, hogy olyan jó a cell önmagában is. Akkor magyarázd meg, hogy az IBM miért bízik kevésbbé a saját procijában.
  • dez
    #24
    Nos ha 16 GFLOPS-t veszünk a Double Precision LinPack esetén (PPE-t is beleszámolva, mert miért hagynák parlagon a bővített VMX-ét), 16 x 16000 = 256000. És ehhez jön a 16000 Opteron teljesítménye. Így az első hely simán megvan.

    A HWSW elméleti maximum FLOPS adata hibás [jellemző, a PS3-at és a Cellt mindig lehúzzák], pontosabban egy korai, 2.4GHz-es példányra vonatkozik. 3.2GHz-en kb. 240 GFLOPS. (25,6 [SPE] x 8 + 35 [PPE])

    Nos azért talán nem teljesen mellékes, hogy 16000 Cell S.P. maximuma 3840000 GFLOPS, azaz 3.84 PFLOPS. Jól fog az még jönni sok számításnál. :P
  • dez
    #23
    Nem érted? Na ne mondd, tudod te azt, hiszen állandóan kántálod: a Cell általános feladatvégrehajtási (nem mat. számítási) teljesítménye kisebb, mint egy Opteroné, és a nagy mennyiséű adathoz (ami nem fér a fél mega L2-be) való totál random hozzáférés nagy latency-vel jár (bár a sávszél elég jó, szekvenciális olvasás esetén nincs probléma).

    Hozzáteszem, a Cellből később lesz több változat is, több PPE-vel és/vagy több SPE-vel.
  • shabba
    #22
    Hmm ebben a cikkben az szerepel 16 ezer opteron és 16 ezer cell lesz a rendszerben.

    http://www.hwsw.hu/hirek/32021/ibm_szuperszamitogep_roadrunner_los_alamos_national_laboratory_cell_playstation_3.html

    Itt pedig a LinPack benchmark top 500-as tesztjéről azt írja a FAQ, hogy nem a single és double precision a lényeg, hisz egyes rendszereknél a singe precision már alapban 64 bitet jelent. A benchmark tesztnek 64 bit vagy a fölötti pontosságon kell lefutnia, 32 bites pontosságról nem igazán írnak.

    http://netlib2.cs.utk.edu/utk/people/JackDongarra/faq-linpack.html

    Márpedig az 1 pflops-ot ez a rendszer csak 32 bites pontosság mellett fogja teljesíteni, kiindulva az IBM által prezentált LinPack mérési adatokból. Az meg mérés szempontjából nem lesz hiteles eredmény a top500-ba. 64 bit pontosság mellett nem hisz hogy le fogja gyűrni BlueGene-t.
  • BiroAndras
    #21
    Csak azt nem értem, hogy ha ilyen durva a cell, akkor minek csomagolnak mellé 1-1 opteront.
  • dez
    #20
    Ja tényleg, valamit el is felejtettem: az alábbi számok csak az SPE-ken alapultak, pedig a PPE (normal CPU mag bővített VMX egységgel) még több FLOPS-ot tud, mint 1db SPE, szal azt is hozzá lehetne adni.
  • BCS CORPS
    #19
    cell meg core2 meg hasonló inteles procik ég és föld a kettő

    IBM-Toshiba-Sony nem véletlen hogy ezek + még néhány cég anno villámgyorsan összefogtak hogy végre legyen már egy sokkal értelmesebb felépítésü proci is
  • dez
    #18
    Nos DP-ben 1kx1k 9.46, 2kx2k 11.05, viszont SP-ben 4kx4k 155.5.

    Még hozzátenném, ezek 3.2GHz-en értendők, 90nm-en. Egy rosszul szellőző PS3-ben is mennek ennyit, valamivel jobb hűtéssel simán mennek 4GHz-en (~5GHz volt a csúcs). Jövőre meg már 65nm-en készülnek...
  • dez
    #17
    Bizony, fontos szempont a Cell brutális sávszéle is, hogy a parallel architektúrák támogatása. Itt visszájára fordul a kritikusok vesszőparipája: "a FLOPS nem minden". :)

    Apropó FLOPS, sajnos sokan nem fogják fel, hogy az S is hozzá tartozik a mértékegységhez, az jelzi az időegységet. Mint a km/h-nál a h.

    Még egy megjegyzés a cikkhez: a Cell eleve nem csak a PS3-ba készült, már a kezdetekkor terveztek más alkalmazást is.
  • dez
    #16
    Várjuk meg, mikor épít 4-core Core2-esekből szuperszámítógépet az Intel. (És mennyiért.)
  • dez
    #15
    Magam is ezt az oldalt akartam linkelni.

    Megjegyzések:
    Double prec. Linpack 1kx1k-ben tényleg csak ~30%-kal gyorsabb, mint egy 3.6-os P4. (2kx2k-ban valamivel gyorsabb. Single-ben meg 6x-os, de ezt írtad.)

    De ne csak ezt az egy adatot nézzük! Alább több alkalmazásnál akár 1db SPE is 2x gyorsabb, mint egy P4... 8 SPE így 16x-os teljesítményt hoz.

    Bizonyos dolgokban meg 35x gyorsabb.

    Kb. 2 éve írtam egyszer az IBM-nek (valamilyen Celles infó emailre), és rákérdeztem erre a Single Precision dologra, tehát hogy ez elég-e tudományos célokra. Azt válaszolták, hogy a legtöbb esetben elegendő.
  • BlackRose
    #14
    Nem gondolod, hogy az USA nukleáris program előnyben részesedik a játékkonzolokhoz képest, meg ehhez adnám még hogy a Cell-t az IBM gyártja, tehát nem kell neki várnia, hogy legyen elég a piacon. A hír szerint egyébként 2007-ben lesz kész. Akkor az 1 PFLOPS azt hiszem elég komoly lesz (szerintem a jelenlegi BlueGene marad még egy évig a csúcs és az még csak picit több mint 1/4 PFLOPS. Különben sem lehet egy ilyen rendszert a Core 2-hez hasonlítani, igaz, hogy a Core 2 fogyasztása már nem olyan magas mint a NetBurst volt, de azért még mindég több mint a Cell, ugyanakkor a Core 2 nem lett Massive Paralell architektúrákra tervezve, míg a Cell igen és sokkal könyebben (olvasd) olcsóbban skálázható. Szóval senkinek sem fog az eszébe jutni, hogy Core 2-ből szuperszámítógépet építsen (persze lesz esetleg cluster rendzser belőlle, de az nem fogja meg sem közelíteni a PFLOPS-ot).

    Aztán a cikkben ki kellene javítani a dolgokat, mert "petaflopos" nem létezik, nem flop hanem FLOPS, vagyis FLoating point Operations Per Second.
  • shabba
    #13
    Ahogy az oldalon is szerepel a SP max peak teljesítménye a cellnek 230 GFLOPS, DP-nél ez már lecsökken 21 GFLOPS-ra. És mire szélesebb körben hozzáférhető lesz a Cell, úgy hogy elég számú fölös kapacitás legyen a konzolos eladásokon felül egy ilyen project beindításához az még odébb lesz. Aztán utána még meg is kell építeni a rendszert. Mire elkészül szerintem lesz vagy 2010 addigra meg már az akkori eredményekhez mérten kell nézni ezt az 1 PFLOPS-ot.

    Mire jővőre elérhetők lesznek jobban a Cell procik, addigra már az Intel is 4 coreos Core2-eseket fog gyártani. Double precisionban azok már biztos le fogják nyomni a Cell-t és SP-ben is egyre jobban a nyakára fog mászni, bár ott soká lesz még mire utolérik.
  • shabba
    #12
    Ha beírod gugliba a linpack+cell mágikus szavakat akkor elsőnek egy ibm-es tesztet dob ki:

    http://www-128.ibm.com/developerworks/power/library/pa-cellperf/

    Kár hogy az összehasonlításban az Intelnek csak a régi NetBurst architectúrájú procija szerepel, kíváncsi lennék egy Core2-es WoodCresttel mit produkálna.

    Mindesetre ebből is látszik hogy single precisionban a cell nagyon jó közel 6x gyorsabb mint P4-es. Viszont double precision esetén az előny minimálisra csökken úgy ~35%-os. Ezt szerintem az új Core2-es architechtúra lazán behozta, főleg azonos 3.2Ghz-es sebességen összevetve.

    Persze szépek ezek a single precision eredmények a Cell-től de tudományos számításoknál nem hiszem hogy ilyennel szoktak számolni, ott azért a standard a double precision floating point.
  • mir
    #11
    s/terrabyte/terraflops/
  • mir
    #10
    ahhoz az ,,osszedobnak'' reszhez csak annyit szolnek hozza, hogy a top100-ba bekerulo szuperszamitogepek messze a legdragabb reszegysege az interconnect, majd ezutan kovetkeznek a szerverek amikbe beleteszik a ramot, ezutan jon a RAM, majd _legvegul_ a processzorok. Raadasul az a 2 terrabyte messze all a valosagtol, ha akar a LinPack futtatasa eseten elerik a 100 GFLOPSt mar baromi joljarnak, de szerintem joval lentebb lesz az.
  • mir
    #9
    raadasul a 256 is mindossze az elmeleti korlat, a gyakorlat ennel joval rosszabb lesz, raadasul nem minden muveletre jon ossze a 256 sem (es mint mondtad nem is single precession :) )
  • roliika
    #8
    Izé...27, de jó lenne ha ezen a fórumon is lehetne a hsz-eket módosítani...
  • roliika
    #7
    És így "csak" kicsit több mint 500 proci kéne. 25 db 20 procis szervert összedobnak és kész is...na jó, 22.
  • roliika
    #6
    Én úgy tudom,hogy 2Tera Flop körül van, nem?
  • shabba
    #5
    Szerintem egy szuperszámítógépen nem single precisionnal fognak számolni, főleg nem nukleáris kutatásoknál. Akkor pedig a 256 gflops máris nem annyi.
  • BiroAndras
    #4
    A cell nyers teljesítménye 256gflpos. Ez alapján kb. 4000 darab kell. Ennél sokszor több procis gépek is vannak.
  • turul16
    #3
    Csak a lényeg hiányzik a hirböl :)
    Hány Cell ill. Opteron kell az 1 petaFlops hoz ?
  • Cat #2
    floating point operations per second, azaz a másodpercenkénti lebegőpontos számítások mennyisége.

    Egy csúcs pc kb. 10 GFLOPS
  • Duncan Idaho
    #1
    Valaki segítene mit is jelent a "flop" ?
    Köszi