kvp#35
"- Az egy dolog, hogy a közvetlen memóriacímzés által egy átlag C kód fordítható és futtatható rajta, de ha ezt tesszük, nagyon gyorsan beleütközünk a memória-sávszélesség korlátaiba. És akkor ugyanúgy neki kell állni optimalizálni, a minimumra csökkenteni a memóriahozzáférések számát."
A larrabee-k eseten annyi memoria buszt tesznek ra amennyik akarnak. A jelenlegi nvidia chipeken is 2-8 fuggetlen csatorna van. Igy akar mindegyik cpu tomb kaphat egy vezerlot.
"De mivel itt cache van, tele kell tenni a kódot prefetchekkel, flushokkkal, stb. stb. Akkor már sokkal átláthatóbb, ha van minden maghoz egy belső, címezhető ramunk..."
A forditoprogramokat erre talaltak ki. A forditot megirja egy ember, aztan hasznalja tobb szazezer. A masik, hogy ha nem akar valaki jo kodot irni, akkor egyszeruen kihagyja az optimalizalast. Lehet, hogy nem lesz tul gyors a program, de elkeszul idore. Ez utobbi fontosabb a kiadok szamara, mint az optimalizalas.
"- Cache memóriából 256 KB sokkal kevesebb hasznos adatot v. kódot tud tárolni (mert egy adat-szót tartalmazó és azonosító cache-line sok szó önmagában), mint 256 KB lokális RAM."
Nem igaz, ez csak az adatok lokalitasatol fugg. Pont az ami a cell-nel kotelezo, az x86-osok eseten pedig csak a teljesitmenyt novelo opcionalis megoldas.
"- Mindkettő in-orderes, de a Larrabee-nél ez jóval többször jelenthet várakozást, mivel az SPU-k alapvetően a cache-sebességű lokális memóriába dolgoznak, ahol ez nem számít."
Ezert van a jelenlegi rendszereknel 1 orajeles cache es ezert van a larrabee-ben smt, hogy amig az egyik szal var az adatra, addig a masik szal dolgozik. Es mindezt teljesen automatikusan, a programozo szamara gondot nem jelento modon teszi. (tehat akar arra is kepes, hogy egy utasitast az egyik szalbol, egyet a masik szalbol hajtson vegre, ezt cell-el nem lehet megoldani, mert csak szoftveres szal valtas van az spe-kben, ami jopar utasitast igenyel)
"- Nem hátrány, hogy az SPU-kban 128 bites vektoregység van: 1. kevesebb párhuzamos műveletre esik 1-1 ugrási egység, így kevesebbet is fog vissza, ha ugorni kell, 2. így kisebb is a mag."
A larrabee-ben pont ezert van smt, hogy ez elony legyen ne hatrany, tovabba az osszes gpu-ban is ezert van 16-os parhuzamositas az spu-k 2-es megoldasa helyett.
"- Az SPU-k kisebbek: több fér el. Azonos csíkszélességen mindig több SPU fog elférni."
Kar, hogy ehhez ujra kell irni, de legalabb ujraforditani a szoftvert. Ezzel szemben az x86-os kod annyi szalat hasznal amennyit akar, aztan ha van eleg mag, akkor mindegyik kap sajatot, ha nincs akkor futnak kevesebben, multitask-ban. Igy a lassabb gepeken is fut a kod, de ha veszunk egy ujat, akkor magatol gyorsabb lesz minden regi program.