Opteron és Cell chipek az IBM új szuperszámítógépében

Oldal 1 / 2Következő →

Jelentkezz be a hozzászóláshoz.

#67
á hagyd ezt már többedszerre játszák le, sõt DEZ már máshol is sokat beszlgetett erröl.

Én egyébként a summa 512ram miatt kritizálom a PS3at, sok sikert igy az 1080ps játékok texturáihoz.

btw ezt érdemes megnézni nem gyenge és azért sejteti 512ram is sokmindenre elég: http://hardwired.hu/dl.php?id=5293&dl=1

item
#66
Srácok srácok, nyugalom! <#hehe> Egy jót derültem ezeken a kommenteken! Féreértés ne essék nem a szakmai hozzáértéseteken,hanem az egymás gyõzködésén! <#taps> Amúgy szeretem olvasni a kommentjeiteket mert az átlag usernél több infóval rendelkeztek a hasonló témákban. <#worship> PEACE...

3.14159265358979323846264338327950288419716939937510582097494459230781640628620899862803482534211706798214808651328230664709384460955....

#65
Nono, éppenhogy többmindenrõl beszéltünk, közte a nagyrészt in-orderességrõl, illetve az egyszerûbb branch-predictionrõl, de másról is, és elhangzott olyan is, hogy erõs butítás, stb. Egyszóval nem lehetett tudni, hogy a szóban forgó részben mikre gondolsz, 2 dologra vagy több dologra.

#64
Elég alaposan átbeszéltük már a témát, szóval pontosan tudhattad, hogy mire gondolok. Ne csak olyat idézz, amikor épp nem részleteztem.

#63
Nézd, ezt írtad: "Annál inkább kéne neki a többi kidobot fícsör (ebbõl a szempontból egy 386-oshoz hasonlít tudásban)." Korábban meg ilyesmiket írtál, hogy 'nagyon erõsen lebutított mag, amiben nincs branch prediction (pedig van), stb.'. Nem pedig azt, hogy fejlett, de nagyrészt in-order mag, egyszerûsített branch predictionnel. Ebbõl nem derül ki, hágy kidobott fícsörre gondolsz, de arra mutat, jópárra. Szóval te magyarázkodsz. Én meg magyarázok. Nem ugyanaz. :)

#62
Hiába magyarázkodsz, soha nem volt szó annál a kettõnél több "kidobott fícsörrõl".

#61
Nem is tudom, ki hamisítja itt is a történelmet... Nem, nem 2 fícsörrõl volt szó, csak utólag "pontosítottad" erre, amikor már leírtam, mit is tud.
Eredetileg ezt írtad:
"Annál inkább kéne neki a többi kidobot fícsör (ebbõl a szempontból egy 386-oshoz hasonlít tudásban)."
Ez alapvetõen úgy értelmezhetõ, hogy annyi minden ki van dobva, hogy ami marad, az egy 386-szerû proci.

#60
Volt szó 2 (azaz kettõ) darab fícsörrõl. Mint azt magad is kifejtetted többször is, ennél jóval több dologban különbözik egy mai proci egy 386-ostól. Ezért is írtam, hogy "ebbõl a szempontból". Szóval, ez azt jelenti, hogy a két említett fícsör kidobása (egyszerûsítése) nagy visszalépés a régebbi procik irányába. Nem is konkrétan az az érdekes, hogy 386 vagy P1 vagy mi, hanem hogy jelentõs visszalépés. És a másik fontos dolog, hogy nincs szó a többi fícsörrõl, csak errõl a kettõrõl.

#59
Kértelek, hogy magyarázd meg, mirõl is beszéltél. Ezt válaszoltad:

"pontosan a "kidobott fícsörök"-rõl (pontosabban az out-of-order és a branch prediction logika drasztikus egyszerûsítésérõl) van szó"

És korábban meg ezt írtad:

"Annál inkább kéne neki a többi kidobot fícsör (ebbõl a szempontból egy 386-oshoz hasonlít tudásban)."

Hogy máshogy lehet ezt értelmezni, mint hogy a '"kidobott fícsörök" (pontosabban az out-of-order és a branch prediction logika drasztikus egyszerûsítése)' miatt szerinted "egy 386-oshoz hasonlít tudásban".

Az az óvodás, ahogy ki akarod magyarázni magad egy egyértelmû tévedésbõl. Ahelyett, hogy egyszerûen elismernéd, hogy oké, tévedtél.

#58
"Minden másról??? Nem, csak arról, hogy az out-of-order és a branch prediction logika drasztikus egyszerûsíte miatt még messze nem lesz tudásban egy 386-oshoz hasonló a PPE."

Még mindíg nem fogod fel, hogy nem ezt mondtam? Komolyan, kezd ez az egész két óvodás vitájára hasonlítani.

"Ez nem igaz, csak próbálod magad kimenteni."

???

#57
Hogy ne lenne?

#56
Minden másról??? Nem, csak arról, hogy az out-of-order és a branch prediction logika drasztikus egyszerûsíte miatt még messze nem lesz tudásban egy 386-oshoz hasonló a PPE.

"Nem derült ki a környezetébõl sem, ezért reagáltam egyáltalán. És egyébként azt sem mondtam, hogy tudásban azonos lenne a PPE egy 386-tal, tehát még így is hülyeséget mondtál. Ha egy picikét pontosabban idéztél volna (vagy legalább elfogadtad volna a pontosításomat), akkor nem vitatkoznák itt már megint teljesen értelmetlenül."

Ez nem igaz, csak próbálod magad kimenteni.

#55
Látod, megint beszélsz mindenfélérõl, aminek semmi köze a témához.

#54
"Na, akkor azt magyarázd még meg, hogy milyen szempontból is, ha nem bizonyos kidobott fícsörök szempontjából?"

De pontosan a "kidobott fícsörök"-rõl (pontosabban az out-of-order és a branch prediction logika drasztikus egyszerûsítésérõl) van szó. Te beszélsz itten össze-vissza minden másról.

"Kár, hogy abból a mondatból nem derül ki, hogy teljesítményre vagy tudásra vonatkozik-e. A környezetébõl viszont igen..."

Nem derült ki a környezetébõl sem, ezért reagáltam egyáltalán. És egyébként azt sem mondtam, hogy tudásban azonos lenne a PPE egy 386-tal, tehát még így is hülyeséget mondtál. Ha egy picikét pontosabban idéztél volna (vagy legalább elfogadtad volna a pontosításomat), akkor nem vitatkoznák itt már megint teljesen értelmetlenül.

#53
Mármint a fejlett SIMD egyég és L2 a magon[/-ban] már a PPE-ben van.
Ja, a 386-ban még L1 cache sem volt. Meg pipeline-ok sem... :D

#52
Miért fájna? Csak egyszerûen nem igaz, ennyi az egész.

Tehát, kimondhatjuk, hogy olyan dolgok, mint superscalar architektúra, FPU + fejlett SIMD egyéség + L2 a magon, számodra a "tökéletesen lényegtelen" kategória? Hm.

És még az sem igaz, hogy P1, mivel tudtommal a P1-ben nincs a VMX-nek megfelelõ fejlett SIMD egyég (~SSE3, csak sokkal több regiszterrel), és mintha 64 bites sem lenne... (Az SMT-t félretéve, hiszen az azon kívüli dolgokról beszélünk.)

#51
"Ismétlem : Ebbõl a szempontból, nem úgy általában."

-- Na, akkor azt magyarázd még meg, hogy milyen szempontból is, ha nem bizonyos kidobott fícsörök szempontjából?

"Valahol igen, de én konkrétan az idézett mondatra reagáltam."

-- Á, ez lenne az "ellentámadás"...!? :D Kár, hogy abból a mondatból nem derül ki, hogy teljesítményre vagy tudásra vonatkozik-e. A környezetébõl viszont igen...

#50
Ja, és ha neked a 386 fáj, felõlem lehet pentium 1 is. Tökéletesen lényegtelen.

#49
"Az is baromság, kedves BiroAndras, hogy a Cell PPE-je egy 386-oshoz hasonlít tudásban."

Ismétlem : Ebbõl a szempontból, nem úgy általában.

De Már kb. 10x annyit foglalkoztunk ezzel, mint amennyit az egész ér.

"És ha kicsit visszanézel, láthatod, hogy én nem teljesítményrõl beszéltem. Lévén a "386, csak nagy órajelen" is szerepelt valahol"

Valahol igen, de én konkrétan az idézett mondatra reagáltam.

#48
Az is baromság, kedves BiroAndras, hogy a Cell PPE-je egy 386-oshoz hasonlít tudásban. Lásd alább. Esetleg azt mondhatnád, hogy bizonyos dolgokban a Pentium 1-hez, bizonyos dolgokban meg a Pentium Prohoz hasonlít. Viszont egy sor dologban jóval fejlettebb azoknál is.

És ha kicsit visszanézel, láthatod, hogy én nem teljesítményrõl beszéltem. Lévén a "386, csak nagy órajelen" is szerepelt valahol, aminek még lehetne nagy a teljesítménye, ha elég magas az az órajel.

#47
"Ezt, hogy "Annál inkább kéne neki a többi kidobot fícsör (ebbõl a szempontból egy 386-oshoz hasonlít tudásban)." hogy lehet másképp érteni, mint úgy, hogy a kidobott fícsörök miatt egy 386-oshoz hasonlít tudásban?"

1. Tudásban, nem teljesítményben.
2. Ebbõl a szempontból, nem úgy általában.

Te ezzel szemben ezt írtad : Egy szóval sem mondtam, hogy pl. egy csúcs-Opteronnal is felveszi a versenyt a Cell PPE-je általános mûveletvégzésben. De egy 386-nál, amit te mondtál, sokkal de sokkal jobb.

Itt egyértelmûen teljesítményrõl beszélsz, ami baromság.

#46
Igen, az elõbb én is rátaláltam, csak máshol. Hát, azért kicsit húzós magánembereknek.

Így azért kérdéses, hogy tényleg lesz-e full Linux (hivatalosan) a PS3-hoz, hisz úgy "túl olcsón" juthat bárki bármire használható szép (mat.szám.) teljesítményhez. De majd meglátjuk.

Persze, a hatásfok csökken, de 2db-nál még nem, de pár darabnál sem feltétlenül.

16 ezer procira szétosztani valamit már nagyon nem könnyû, de ha sikerül, akkor elég jó teljesítmény jöhet ki. Ne felejtsük el, hogy itt nem 1-1 core-os procikról van szó, aminek az idejébõl szépen elvesz az adatok fogadása/küldése. Hanem az adatok lokális ramba töltésérõl a PPE gondolsokhat. Onnan/oda meg kvázi megszakítás nélkül dolgozhatnak az SPE-k.

#45
Pontosabban ezek a speckói:

Cell Accelerator Board (CAB
#44
Egy korábbi cikkbõl kiindulva, szerintem egy 2 celles lap kerülhet annyiba.

Cell processzoros gyorsítókártyát jelentett be a Mercury Computer Systems

Ezen a bõvítõ kártyán egyetlen cell van, hasonló sw körítés, hasonló 512mb xdr ram, viszont kisebb 2.4Ghz-es frekin és 8000 dolcsit kérnek érte. Szóval nem lennék meglepve ha az IBM 19 rongyot kérne egyetlen blade kártyáért. A 7 kártyás keret pedig jóval száz ezer fölött lenne.

A hatásfok azért biztos csökken a cpu-k számával. Az SG cikkben említett 16 ezer cell és 16 ezer opteron procis konfig esetén biztos hogy ez még fokozottabban igaz. A 32 ezer proci aggregált peak teljesítményét biztos hogy nem fogja hozni egy komlex rendszer.
#43
Végre, már ideje volt. De most mi kerül majd 19e dollárba? Egy 2 Celles lap? Vagy egy blade keret?

Egyébként nem tudom, miért ír ilyeneket a HWSW (állandóan), hogy "Ezek összesített elméleti csúcsteljesítménye meghaladja a 3,2 teraflopsot (64 biten 300 gigaflopsot), igaz ezt teljes egészében szinte képtelenség a valóságban kiaknázni, egy ilyen klaszter estetében 50 százalékos hatékonyság már jónak számít.", amikor az IBM már bizonyította, hogy jópár feladatban, köztük a Linpackban normális keretek közötti optimizációval 75-92%-os kihasználás érhetõ el.

#41
Ezt, hogy "Annál inkább kéne neki a többi kidobot fícsör (ebbõl a szempontból egy 386-oshoz hasonlít tudásban)." hogy lehet másképp érteni, mint úgy, hogy a kidobott fícsörök miatt egy 386-oshoz hasonlít tudásban?

#40
"De full in-order. A branch prediction az amit nem vettek ki teljesen."

Mondom, hogy nem full in-order. Lásd:
"In order to improve performance from its in-order pipeline, the PPE utilizes delayed-execution pipelines and allows limited out-of-order execution of load instructions. This allows the PPE to get some of the advantages of out-of-order execution without any significant increase in complexity."

#39
"Nos, mint már szó volt róla (de a túl sok szó között nagyon elvész a lényeg), az in-orderrõl annyi mondható el negatívumként, hogy némileg kevésbé hatékony, mint az out-of-order (hozzátéve, hogy a PPE sem full in-order), és jóval nagyobb hangsúly helyezõdik a fordító optimizálási képességére (a run-time "optimizálás" nagy része ide van áthelyezve, azzal sok-sok tranyót megspórolva) - utóbbi jósága sokban ellensúlyozza az elsõt."

Nos, mint már szó volt róla, nem ilyen egyszerû a helyzet, de nincs kedvem megint újrakezdeni az egészet.

#38
"Ezt írtad (arra reagálva, hogy a PPE HW SMT-s):
"Hát bizonyos esetekben esetleg lehet jobb, de általában nem az. Egy tipikus egy szálon futó gamelogic kód szerintem semmi hasznát nem veszi. Annál inkább kéne neki a többi kidobot fícsör (ebbõl a szempontból egy 386-oshoz hasonlít tudásban).""

Tehát azt írtam, hogy EBBÕL A SZEMPONTBÓL. És egyébként se értem, hogy minek lovagolsz ezen, már rég megbeszéltük.

"Tehát, bár HW SMT-s, de egyéb szempontból egy 386-hoz hasonlít tudásban."

Olvasási, vagy szövegértési problémáid vannak. Az "egyéb szempontból", és az "ebbõl a szempontból" közt óriási különbség van.

#37
"De, pontosan azt mondtad, hogy a PPE egy magas órajelû 386-nak felel meg, miért tagadod?"

Azért tagadom mert nem ezt írtam. Egyébként is az elõbb órajelrõl nem beszéltél, idézem : de egy 386-nál, amit te mondtál, sokkal de sokkal jobb.

"És nem visszalépés, csak más filozófia."

Visszalépés abból a szempontból, hogy régebben már volt ilyen megoldás. Ez önmagában nem jelenti szükségképp azt hogy rosszabb. A Core2 is visszalépés a P4-hez képest a P3 felé, de sikerült csak a rossz megoldásoktól megszabadulni.
Viszont a cell-nél a visszalépés azt is jelenti, hogy az azóta felhalmozott tapasztalatot ki lehet dobni a technológiával együtt, és újra kell tanulni sokmindent. Ennyi hátránya biztosan van, és az még nem biztos, hogy a régi-új filozófia beválik.

"Mint már írtam neked, pl. az Itanium is in-orderes."

Mint már írtam neked, az Itanium nem sikerült túl jól, így nem lehet ebbõl következtetést levonni.

"Ráadásul a PPE nem full in-order, hanem egyfajta hibrid!"

De full in-order. A branch prediction az amit nem vettek ki teljesen.

#36
És ugye az a "többi kidobott fícsör" is az in-order rendszer miatt vált fölöslegessé.

Nos, mint már szó volt róla (de a túl sok szó között nagyon elvész a lényeg), az in-orderrõl annyi mondható el negatívumként, hogy némileg kevésbé hatékony, mint az out-of-order (hozzátéve, hogy a PPE sem full in-order), és jóval nagyobb hangsúly helyezõdik a fordító optimizálási képességére (a run-time "optimizálás" nagy része ide van áthelyezve, azzal sok-sok tranyót megspórolva) - utóbbi jósága sokban ellensúlyozza az elsõt.

#35
Ja, és nem beszélve ilyenekrõl, hogy a 386-osnak csak csak pár (16-32 bites), meghatározott utasításokban használható regisztere volt, miközben a PPE-nek (mint a többi PowerPC procinak) 32db (itt 64 bites) általánosan használható, 128db SIMD regisztere, és jópár speciális regisztere van (és mindebbõl 2 set, szálanként egy); nagy rugalmasságot adó címzésmódok és kondiciónális végrehajtás; és még jópár ilyesmi.

Te vagy messze nem értesz ehhez annyira, mint megjátszod, vagy néha nagyon nem vagy magadnál. <#csodalk>

(Most majd jön a magyarázat, hogy te nem is úgy gondoltad... <#wow3>)

#34
Ezt írtad (arra reagálva, hogy a PPE HW SMT-s):
"Hát bizonyos esetekben esetleg lehet jobb, de általában nem az. Egy tipikus egy szálon futó gamelogic kód szerintem semmi hasznát nem veszi. Annál inkább kéne neki a többi kidobot fícsör (ebbõl a szempontból egy 386-oshoz hasonlít tudásban)."

Tehát, bár HW SMT-s, de egyéb szempontból egy 386-hoz hasonlít tudásban. Nos, ez egy jó nagy butaság. Kezdve ott, hogy a 386 még csak superscalar sem volt. Továbbá csak 32 bites volt, nem 64, nem volt benne FPU, MMU, SIMD egység, L2 cache, nuku branch prediction, stb. stb. Kicsit túlértékelted azt, hogy nem out-of-orderes, hanem in-order, némi out-of-order beütéssel...

#33
A Cell valóban, de a PPE (Power Processing Element, norm. CPU mag) miért lenne az?

[Jakuza]
#32
Olvasni tud e meltosagosuram ?
Bizony bonyolultabb programozas szempontjabol.

Dez: Inkompatibilitas definicioja jatekoknal: amikor fut,de csak pl. 1 fps-sel,vagy össze-vissza akadozva,irányíthatatlanul 2. K8-nál alapból mindig 200MHz az FSB. Csak tuning által lesz magasabb.

#31
Túl bonyolult a PPE? :P

#30
De, pontosan azt mondtad, hogy a PPE egy magas órajelû 386-nak felel meg, miért tagadod?

És nem visszalépés, csak más filozófia. Mint már írtam neked, pl. az Itanium is in-orderes. Ráadásul a PPE nem full in-order, hanem egyfajta hibrid! De ezt is írtam már. (De mindek...?)

[Jakuza]
#29
Pontosan.
Raadasul programozhatosag (tul bonyolult) szempontjabol is visszalepes.

Dez: Inkompatibilitas definicioja jatekoknal: amikor fut,de csak pl. 1 fps-sel,vagy össze-vissza akadozva,irányíthatatlanul 2. K8-nál alapból mindig 200MHz az FSB. Csak tuning által lesz magasabb.

#28
"De egy 386-nál, amit te mondtál, sokkal de sokkal jobb."

Értsd már meg, hogy nem errõl beszéltem. Arról van csak szó, hogy a PPE az utasítás végrehajtás menete szempontjából nagy visszalépés a mai procikhoz képest.

#27
PPE-hez: persze nem árt, ha a sûrûbben hozzáfért adatok nagy része befér a cache-ekbe, vagy szekvenciálisan olvashatók a ramból, mert itt jóval nagyobb a latency, mint A64-nél. (De a sávszélesség is.)

#26
Egy szóval sem mondtam, hogy pl. egy csúcs-Opteronnal is felveszi a versenyt a Cell PPE-je általános mûveletvégzésben. De egy 386-nál, amit te mondtál, sokkal de sokkal jobb. Kb. egy 2GHz-es (3000+) A64-nek felel meg szerintem. (Egy jó fordító használatával.)

(Az SPE-k sem csak a SIMD kódot ismerik, hanem a teljes PPC utasításkészletet, csak nem az órajelüknek megfelelõ teljesítménnyel hajtják azokat végre.)

Nem tudom, egy szuperszámítógépnél mekkora szükség van általános mûveletvégzésre a matematikai számítások mellett, de ha van, akkor azért arra jól jönnek az Opteronok. Továbbá, szuperszámítógéprõl van szó, nagyon sok adat áramlik a procik között, ennek szervezésére és lebonyolítására is jól jön a segítség.

#25
"Nem érted? Na ne mondd, tudod te azt"

Az irónia nevû izérõl hallottál már?
De vehetjük úgy is, hogy a kérdés neked szól. Te bizonygatod, hogy olyan jó a cell önmagában is. Akkor magyarázd meg, hogy az IBM miért bízik kevésbbé a saját procijában.

#24
Nos ha 16 GFLOPS-t veszünk a Double Precision LinPack esetén (PPE-t is beleszámolva, mert miért hagynák parlagon a bõvített VMX-ét), 16 x 16000 = 256000. És ehhez jön a 16000 Opteron teljesítménye. Így az elsõ hely simán megvan.

A HWSW elméleti maximum FLOPS adata hibás , pontosabban egy korai, 2.4GHz-es példányra vonatkozik. 3.2GHz-en kb. 240 GFLOPS. (25,6 x 8 + 35 )

Nos azért talán nem teljesen mellékes, hogy 16000 Cell S.P. maximuma 3840000 GFLOPS, azaz 3.84 PFLOPS. Jól fog az még jönni sok számításnál. :P

#23
Nem érted? Na ne mondd, tudod te azt, hiszen állandóan kántálod: a Cell általános feladatvégrehajtási (nem mat. számítási) teljesítménye kisebb, mint egy Opteroné, és a nagy mennyiséû adathoz (ami nem fér a fél mega L2-be) való totál random hozzáférés nagy latency-vel jár (bár a sávszél elég jó, szekvenciális olvasás esetén nincs probléma).

Hozzáteszem, a Cellbõl késõbb lesz több változat is, több PPE-vel és/vagy több SPE-vel.

#22
Hmm ebben a cikkben az szerepel 16 ezer opteron és 16 ezer cell lesz a rendszerben.

http://www.hwsw.hu/hirek/32021/ibm_szuperszamitogep_roadrunner_los_alamos_national_laboratory_cell_playstation_3.html

Itt pedig a LinPack benchmark top 500-as tesztjérõl azt írja a FAQ, hogy nem a single és double precision a lényeg, hisz egyes rendszereknél a singe precision már alapban 64 bitet jelent. A benchmark tesztnek 64 bit vagy a fölötti pontosságon kell lefutnia, 32 bites pontosságról nem igazán írnak.

http://netlib2.cs.utk.edu/utk/people/JackDongarra/faq-linpack.html

Márpedig az 1 pflops-ot ez a rendszer csak 32 bites pontosság mellett fogja teljesíteni, kiindulva az IBM által prezentált LinPack mérési adatokból. Az meg mérés szempontjából nem lesz hiteles eredmény a top500-ba. 64 bit pontosság mellett nem hisz hogy le fogja gyûrni BlueGene-t.
#21
Csak azt nem értem, hogy ha ilyen durva a cell, akkor minek csomagolnak mellé 1-1 opteront.

#20
Ja tényleg, valamit el is felejtettem: az alábbi számok csak az SPE-ken alapultak, pedig a PPE (normal CPU mag bõvített VMX egységgel) még több FLOPS-ot tud, mint 1db SPE, szal azt is hozzá lehetne adni.

BCS CORPS
#19
cell meg core2 meg hasonló inteles procik ég és föld a kettõ

IBM-Toshiba-Sony nem véletlen hogy ezek + még néhány cég anno villámgyorsan összefogtak hogy végre legyen már egy sokkal értelmesebb felépítésü proci is

http://www.bcsinfo.hu/forum

#18
Nos DP-ben 1kx1k 9.46, 2kx2k 11.05, viszont SP-ben 4kx4k 155.5.

Még hozzátenném, ezek 3.2GHz-en értendõk, 90nm-en. Egy rosszul szellõzõ PS3-ben is mennek ennyit, valamivel jobb hûtéssel simán mennek 4GHz-en (~5GHz volt a csúcs). Jövõre meg már 65nm-en készülnek...

Oldal 1 / 2Következő →