Intel: 32 magos lesz az első Larrabee
Jelentkezz be a hozzászóláshoz.
Mi van, bamba paraszt, még most sem buzog föl benned Árpád vére?” (McSzéchenyi)
Vain ei kuulu terroristien käsiin! CS. N. T. K. K.! SG az a hely ahol sunyi módon csöndben törölgetik a hozzászólásokat, indok nélkül. ;)
Khm.
DP3 utasítás
__asm
{
mulps xmm0, xmm1;
haddps xmm0, xmm0;
haddps xmm0, xmm0;
}
DP4 utasítás
__asm
{
mulps xmm0, xmm1;
haddps xmm0, xmm0;
haddps xmm0, xmm0;
haddps xmm0, xmm0;
}
CRS/XPD utasítás:
__asm
{
movaps xmm2,xmm0;
movaps xmm3,xmm1;
shufps xmm0, xmm0, 0x8d;
shufps xmm1, xmm1, 0x1e;
mulps xmm0, xmm1;
shufps xmm2, xmm2, 0x1e;
shufps xmm3, xmm3, 0x8d;
mulps xmm2, xmm3;
subps xmm0, xmm2;
}
MAD utasítás
madaps xmm0, xmm1, xmm2; //x64 only
Ráadásul a GPU utasítások 3 címes gépekkel modellezhetõek, míg az x64/x86 2 címes gépekkel.
1024 gpu mag teljesitmenyu. Azaz a high end valtozat kb. egy mai dx10-es nvidia cpu teljesitmenyenek a negyszereset hozza majd. Az alap larrabee pedig eppen hogy eleri a mai 256 magos nvida gpu-k teljesitmenyet, ami nem szamit olyan rossz adatnak. Mindezt ugy, hogy 16 cpu es cpu magonkent 16 alu lesz benne, ami 256 gpu-s alu-nak felel meg, 16-os shader szal kotegekkel. (ehhez hasonlo az nvidia megoldasa is)
Egy shader utasitas leforditva altalaban 1 vektor muvelet lesz, ami egyszerre max. 16 shader szalat tud igy futtatni, a jelenlegi x86-ok 8 szalaval szemben, tovabba hardverbol tamogatnak majd nehany csak gpu-k eseten szukseges matematikai muveletet is, ami az altalanos celu x86-osokbol eddig kimaradt es csak emulalni lehetett. A branch egyseg az nvidia minajara a kozponti magokban kap helyett, tehat a 16 shader szal csak egyszerre tud branch-elni (mivel valojaban a 16 shader 1 valodi cpu-n fut vliw-es vektor utasitaskent). Az egyszerubb if/then/else megoldasokat loop unrolling-al es conditional store-okkal lehet linearizalni, ami bizonyos bonyolultsagig lehetove teszi a teljesitmenyvesztes nelkuli elagazasos shader programok irasat.
A lenyeg az, hogy mindezt hagyomanyos x86-os kornyezetben lehet megtenni, ami azt jelenti, hogy a larrabbe extra tudasa elerheto lesz minden felhasznaloi program szamara (mint ahogy az mmx/sse utasitasok is). Mindezt specialis fejlesztoi kellekek es barmifele trukkozes nelkul. (tehat nyugodtan lehet majd akar c++-ban vagy c#-ban shader alapu kodot irni, mivel a larrabee is csak egy sima x86 lesz, csak sok maggal es uj multimedias utasitasokkal, mint a pentium ota az osszes intel cpu)
Pedi igen, TNT 2 óta tudott olyat, csak nagyon primitív, textúra címzéssi lehetõségekkel nem rendelkezett, úgy hívták Register Combiner, bár dot3 bump-hoz nem kellett, meg volt ATI-kon is meg NV is még az EnvCombiner.
... Alea iacta est - Veni, vidi, vici ...
Lásd X360 vs PS3 architektúra, ami elõször elõny, az hátrányt okoz a jövõben és fordítva.
PC-nél persze semelyik termék nem jut el odáig, hogy komolyan kelljen a programok optimalizálásán gondolkodni, ergó, ha amúgy is rövid a ciklusidõ, akkor a max teljesítménnyel szemben a könnyû programozhatóság jelent valós elõnyt.
Láttam én annó GF4MX-re is olyan demo-t ami tele volt shader szerû megoldásokkal, pedig a kártya amúgy ilyet nem tudott, elvileg. A kutyát nem érdekelte, hogy mi a grafkártya valós teljesítménye, mert mire a játékok odáig jutnak, már 2 generációval odébb járunk.
Amúgy hasonló megoldásokkal valszeg más cég pl. IBM is foglalkozik (valami fejlettebb cell-lel), csak nem csinálnak akkora felhajtást körülötte.
Histeria est magistra vitae. Ez nem trollkodás, ez online graffiti! ;) https://suno.com/@nexus65ongs
majd meglássuk, még nem tudhassuk mit fejlesztenek.
... Alea iacta est - Veni, vidi, vici ...
A
Na nézzük csak ez hogy jön ki?
Azt mondod 1 larrabee (32 mag) = 11 cell ~1 NVidia GPU, majd 1 larrabee (64 mag) = 1024 GPU? (Max valami Intel GMA920-asból).
Ez az állításod így elsõre még a matematikát is kiforgatja.
Na de vegyük át, mégegyszer más úton:
Intel high end core i7, 4 mag = szumma 51GFLOPS.
De atom procimagokból lesz, amit egy modernebb technológiával gyártott Athlon XP azonos órajelen aláz, de vegyük rendesnek 51/4 = ~17. 32*17=544, 64*17=1088. Na már most egy modern GPU tényleg GFLOPS felett van már, így nem értem hogy lesz Larrabee high end verziód, 1024 GPU teljesítményû? Ráadásul a sok mag egymás útjában is lesz. GPU-nál ez úgy van kiküszöbölve, hogy trükköznek a textúra, z-buffer, stb cachekkel és az adatbuszok számával.
Vain ei kuulu terroristien käsiin! CS. N. T. K. K.! SG az a hely ahol sunyi módon csöndben törölgetik a hozzászólásokat, indok nélkül. ;)
A ps3-ban csak 6 aktiv spe mag van es 1 ppe. A larrabee eseten 16 x86-os cpu mag (ppe) lesz, magonkent 16 vektoregyseggel (tehat egy larrabee kb. egy 16 ppe/64 spe-s cell-nek felelne meg azonos orajelen, vagy kb. 11 darab a ps3-ba rakott cell-nek, esetleg 1 darab jelenlegi dx10-es nvidia chipnek). A larrabee tovabbi elonye, hogy minden mag latja a teljes rendszermemoriat es a teljes cache-t, tehat mindenfele trukkozes nelkul erheto el a teljes fizikai ram, ha a cim eppen a cache-ben van akar 1 orajel alatt is. Ezt akarjak megfejelni meg smt tamogatassal, ami akkor ad munkat a magoknak ha eppen varnak valamire (memoriara), es ez az utobbi megoldas megint nem igenyel semmilyen programozoi trukkot.
Egy high end larrabee (64 mag) eseten mar 1024 gpu mag teljesitmenye allna a chip rendelkezesere, akar sima x86-os felhasznaloi programok futtatasara is.
A
Vain ei kuulu terroristien käsiin! CS. N. T. K. K.! SG az a hely ahol sunyi módon csöndben törölgetik a hozzászólásokat, indok nélkül. ;)
ACER TimelineX 3820TG (core I3 E370M, 2+4GB DDR3 1333, HD5470M 512MB, OCZ Agility3 120GB) MSI GT683R (core I7 2630M, 2x4GB DDR3 1333, GTX560M 1,5GB, HyperX 120GB + Segate Momentus 7200RPM 500GB)
A történelem nagy tragédiája, hogy az Aurora helyett a Titanic süllyedt el. (Meg az, hogy a világot elárasztották a konteóhív?k...) i5-2400S 2.5GHz, HD7850 2GB, 8 GB RAM
Minden GPU alap felépítésében párhuzamosan hajtja végre a mûveleteket. Ez is ugyanazt fogja csinálni mint a többi, remélem gyorsabban. Amúgy rengeteg lehetõség van benne, fantasztikus fejlesztés. Hihetetlen sok mindenre használható majd az x86-os kivitelezés miatt. Sokkal többre mint akármelyik GPU.
Más:
Elég fura lenne ha nem lehetne programozni 16 magra 😄
Más kérdés hogy nincs rá szükség, de a grafikában teljesítmény kell, nem úgy mint az általános alkalmazásokban, msn, webböngészés, ezért nincs otthoni CPU 8 magos.
Ráadásul kézenfekvõ a kettõs célú felhasználás: ha nem köti le a grafika a kapacitását, akkor (megfelelõ libraryn keresztül) mezei PC-s programokból is kihasználható a teljesítménye, például video-, kép- és hangfeldolgozásra. A video-, kép- és hangfeldolgozás ugyanis kiválóan párhuzamosítható.
De ezek szerintem egyelõre csak találgatások, az Intel elindult egy merõben új irányba, és lehet, hogy nem folytatja majd. Vagyis ez lényegében kísérlet.
... Alea iacta est - Veni, vidi, vici ...
Mondd, hogy nincs igazam :P http://www.hackthat.net/df/ddos/61410/index.hack
286/20Mhz; 1Mb; WD Paradise 512Kb; 40Mb; Mono VGA; ...Wolfeinsten 3D priman fut rajta 1.2 rendszerfloppyrol :>
megint elmondták a semmit. annyi a biztos infó hogy 2010-ben jelenik meg, és 45 majd 32nm-es lesz. de ezt eddig is tudtuk.
... Alea iacta est - Veni, vidi, vici ...