67
-
dez #27 PPE-hez: persze nem árt, ha a sűrűbben hozzáfért adatok nagy része befér a cache-ekbe, vagy szekvenciálisan olvashatók a ramból, mert itt jóval nagyobb a latency, mint A64-nél. (De a sávszélesség is.) -
dez #26 Egy szóval sem mondtam, hogy pl. egy csúcs-Opteronnal is felveszi a versenyt a Cell PPE-je általános műveletvégzésben. De egy 386-nál, amit te mondtál, sokkal de sokkal jobb. Kb. egy 2GHz-es (3000+) A64-nek felel meg szerintem. (Egy jó fordító használatával.)
(Az SPE-k sem csak a SIMD kódot ismerik, hanem a teljes PPC utasításkészletet, csak nem az órajelüknek megfelelő teljesítménnyel hajtják azokat végre.)
Nem tudom, egy szuperszámítógépnél mekkora szükség van általános műveletvégzésre a matematikai számítások mellett, de ha van, akkor azért arra jól jönnek az Opteronok. Továbbá, szuperszámítógépről van szó, nagyon sok adat áramlik a procik között, ennek szervezésére és lebonyolítására is jól jön a segítség. -
BiroAndras #25 "Nem érted? Na ne mondd, tudod te azt"
Az irónia nevű izéről hallottál már?
De vehetjük úgy is, hogy a kérdés neked szól. Te bizonygatod, hogy olyan jó a cell önmagában is. Akkor magyarázd meg, hogy az IBM miért bízik kevésbbé a saját procijában. -
dez #24 Nos ha 16 GFLOPS-t veszünk a Double Precision LinPack esetén (PPE-t is beleszámolva, mert miért hagynák parlagon a bővített VMX-ét), 16 x 16000 = 256000. És ehhez jön a 16000 Opteron teljesítménye. Így az első hely simán megvan.
A HWSW elméleti maximum FLOPS adata hibás [jellemző, a PS3-at és a Cellt mindig lehúzzák], pontosabban egy korai, 2.4GHz-es példányra vonatkozik. 3.2GHz-en kb. 240 GFLOPS. (25,6 [SPE] x 8 + 35 [PPE])
Nos azért talán nem teljesen mellékes, hogy 16000 Cell S.P. maximuma 3840000 GFLOPS, azaz 3.84 PFLOPS. Jól fog az még jönni sok számításnál. :P -
dez #23 Nem érted? Na ne mondd, tudod te azt, hiszen állandóan kántálod: a Cell általános feladatvégrehajtási (nem mat. számítási) teljesítménye kisebb, mint egy Opteroné, és a nagy mennyiséű adathoz (ami nem fér a fél mega L2-be) való totál random hozzáférés nagy latency-vel jár (bár a sávszél elég jó, szekvenciális olvasás esetén nincs probléma).
Hozzáteszem, a Cellből később lesz több változat is, több PPE-vel és/vagy több SPE-vel. -
shabba #22 Hmm ebben a cikkben az szerepel 16 ezer opteron és 16 ezer cell lesz a rendszerben.
http://www.hwsw.hu/hirek/32021/ibm_szuperszamitogep_roadrunner_los_alamos_national_laboratory_cell_playstation_3.html
Itt pedig a LinPack benchmark top 500-as tesztjéről azt írja a FAQ, hogy nem a single és double precision a lényeg, hisz egyes rendszereknél a singe precision már alapban 64 bitet jelent. A benchmark tesztnek 64 bit vagy a fölötti pontosságon kell lefutnia, 32 bites pontosságról nem igazán írnak.
http://netlib2.cs.utk.edu/utk/people/JackDongarra/faq-linpack.html
Márpedig az 1 pflops-ot ez a rendszer csak 32 bites pontosság mellett fogja teljesíteni, kiindulva az IBM által prezentált LinPack mérési adatokból. Az meg mérés szempontjából nem lesz hiteles eredmény a top500-ba. 64 bit pontosság mellett nem hisz hogy le fogja gyűrni BlueGene-t. -
BiroAndras #21 Csak azt nem értem, hogy ha ilyen durva a cell, akkor minek csomagolnak mellé 1-1 opteront. -
dez #20 Ja tényleg, valamit el is felejtettem: az alábbi számok csak az SPE-ken alapultak, pedig a PPE (normal CPU mag bővített VMX egységgel) még több FLOPS-ot tud, mint 1db SPE, szal azt is hozzá lehetne adni. -
#19 cell meg core2 meg hasonló inteles procik ég és föld a kettő
IBM-Toshiba-Sony nem véletlen hogy ezek + még néhány cég anno villámgyorsan összefogtak hogy végre legyen már egy sokkal értelmesebb felépítésü proci is
-
dez #18 Nos DP-ben 1kx1k 9.46, 2kx2k 11.05, viszont SP-ben 4kx4k 155.5.
Még hozzátenném, ezek 3.2GHz-en értendők, 90nm-en. Egy rosszul szellőző PS3-ben is mennek ennyit, valamivel jobb hűtéssel simán mennek 4GHz-en (~5GHz volt a csúcs). Jövőre meg már 65nm-en készülnek... -
dez #17 Bizony, fontos szempont a Cell brutális sávszéle is, hogy a parallel architektúrák támogatása. Itt visszájára fordul a kritikusok vesszőparipája: "a FLOPS nem minden". :)
Apropó FLOPS, sajnos sokan nem fogják fel, hogy az S is hozzá tartozik a mértékegységhez, az jelzi az időegységet. Mint a km/h-nál a h.
Még egy megjegyzés a cikkhez: a Cell eleve nem csak a PS3-ba készült, már a kezdetekkor terveztek más alkalmazást is. -
dez #16 Várjuk meg, mikor épít 4-core Core2-esekből szuperszámítógépet az Intel. (És mennyiért.) -
dez #15 Magam is ezt az oldalt akartam linkelni.
Megjegyzések:
Double prec. Linpack 1kx1k-ben tényleg csak ~30%-kal gyorsabb, mint egy 3.6-os P4. (2kx2k-ban valamivel gyorsabb. Single-ben meg 6x-os, de ezt írtad.)
De ne csak ezt az egy adatot nézzük! Alább több alkalmazásnál akár 1db SPE is 2x gyorsabb, mint egy P4... 8 SPE így 16x-os teljesítményt hoz.
Bizonyos dolgokban meg 35x gyorsabb.
Kb. 2 éve írtam egyszer az IBM-nek (valamilyen Celles infó emailre), és rákérdeztem erre a Single Precision dologra, tehát hogy ez elég-e tudományos célokra. Azt válaszolták, hogy a legtöbb esetben elegendő. -
BlackRose #14 Nem gondolod, hogy az USA nukleáris program előnyben részesedik a játékkonzolokhoz képest, meg ehhez adnám még hogy a Cell-t az IBM gyártja, tehát nem kell neki várnia, hogy legyen elég a piacon. A hír szerint egyébként 2007-ben lesz kész. Akkor az 1 PFLOPS azt hiszem elég komoly lesz (szerintem a jelenlegi BlueGene marad még egy évig a csúcs és az még csak picit több mint 1/4 PFLOPS. Különben sem lehet egy ilyen rendszert a Core 2-hez hasonlítani, igaz, hogy a Core 2 fogyasztása már nem olyan magas mint a NetBurst volt, de azért még mindég több mint a Cell, ugyanakkor a Core 2 nem lett Massive Paralell architektúrákra tervezve, míg a Cell igen és sokkal könyebben (olvasd) olcsóbban skálázható. Szóval senkinek sem fog az eszébe jutni, hogy Core 2-ből szuperszámítógépet építsen (persze lesz esetleg cluster rendzser belőlle, de az nem fogja meg sem közelíteni a PFLOPS-ot).
Aztán a cikkben ki kellene javítani a dolgokat, mert "petaflopos" nem létezik, nem flop hanem FLOPS, vagyis FLoating point Operations Per Second. -
shabba #13 Ahogy az oldalon is szerepel a SP max peak teljesítménye a cellnek 230 GFLOPS, DP-nél ez már lecsökken 21 GFLOPS-ra. És mire szélesebb körben hozzáférhető lesz a Cell, úgy hogy elég számú fölös kapacitás legyen a konzolos eladásokon felül egy ilyen project beindításához az még odébb lesz. Aztán utána még meg is kell építeni a rendszert. Mire elkészül szerintem lesz vagy 2010 addigra meg már az akkori eredményekhez mérten kell nézni ezt az 1 PFLOPS-ot.
Mire jővőre elérhetők lesznek jobban a Cell procik, addigra már az Intel is 4 coreos Core2-eseket fog gyártani. Double precisionban azok már biztos le fogják nyomni a Cell-t és SP-ben is egyre jobban a nyakára fog mászni, bár ott soká lesz még mire utolérik. -
shabba #12 Ha beírod gugliba a linpack+cell mágikus szavakat akkor elsőnek egy ibm-es tesztet dob ki:
http://www-128.ibm.com/developerworks/power/library/pa-cellperf/
Kár hogy az összehasonlításban az Intelnek csak a régi NetBurst architectúrájú procija szerepel, kíváncsi lennék egy Core2-es WoodCresttel mit produkálna.
Mindesetre ebből is látszik hogy single precisionban a cell nagyon jó közel 6x gyorsabb mint P4-es. Viszont double precision esetén az előny minimálisra csökken úgy ~35%-os. Ezt szerintem az új Core2-es architechtúra lazán behozta, főleg azonos 3.2Ghz-es sebességen összevetve.
Persze szépek ezek a single precision eredmények a Cell-től de tudományos számításoknál nem hiszem hogy ilyennel szoktak számolni, ott azért a standard a double precision floating point. -
#11 s/terrabyte/terraflops/ -
#10 ahhoz az ,,osszedobnak'' reszhez csak annyit szolnek hozza, hogy a top100-ba bekerulo szuperszamitogepek messze a legdragabb reszegysege az interconnect, majd ezutan kovetkeznek a szerverek amikbe beleteszik a ramot, ezutan jon a RAM, majd _legvegul_ a processzorok. Raadasul az a 2 terrabyte messze all a valosagtol, ha akar a LinPack futtatasa eseten elerik a 100 GFLOPSt mar baromi joljarnak, de szerintem joval lentebb lesz az. -
#9 raadasul a 256 is mindossze az elmeleti korlat, a gyakorlat ennel joval rosszabb lesz, raadasul nem minden muveletre jon ossze a 256 sem (es mint mondtad nem is single precession :) ) -
roliika #8 Izé...27, de jó lenne ha ezen a fórumon is lehetne a hsz-eket módosítani... -
roliika #7 És így "csak" kicsit több mint 500 proci kéne. 25 db 20 procis szervert összedobnak és kész is...na jó, 22. -
roliika #6 Én úgy tudom,hogy 2Tera Flop körül van, nem? -
shabba #5 Szerintem egy szuperszámítógépen nem single precisionnal fognak számolni, főleg nem nukleáris kutatásoknál. Akkor pedig a 256 gflops máris nem annyi. -
BiroAndras #4 A cell nyers teljesítménye 256gflpos. Ez alapján kb. 4000 darab kell. Ennél sokszor több procis gépek is vannak. -
turul16 #3 Csak a lényeg hiányzik a hirböl :)
Hány Cell ill. Opteron kell az 1 petaFlops hoz ? -
Cat #2 floating point operations per second, azaz a másodpercenkénti lebegőpontos számítások mennyisége.
Egy csúcs pc kb. 10 GFLOPS
-
Duncan Idaho #1 Valaki segítene mit is jelent a "flop" ?
Köszi