• kvp
    #47
    Eleg nagy a kavarodas, de a helyzet a kovetkezo: Vannak a mai gpu-k amikben van X darab altalanos cpu mag. Ezek a magok tartalmaznak simd utasitasokat, amiket a felhasznalva egy utasitasban tobb muvelet vegezheto el. Az altalanos megoldasok 8-16 parhuzamos muveletet engednek meg egy fizikai utasitasban. Igy a gpu keszitok beszoroztak a magok szamat a simd utasitasok parhuzamossagaval. Ezeket hivjak szalaknak, vagy szal csoportoknak. A vliw rendszer egy egyszerusitett megoldas, ha valaki nem akar valodi szuperskalar cpu-t kesziteni. Egy mai intel proci tartalmaz atlag 5 pipeline-t, amik egymastol fuggetlenek, egy kulon in-order koherencia egyseggel megtamogatva. A gpu-k ezt ugy oldottak meg, hogy egy pipeline van, igy a koherenciat a fordito biztositja elore. Ez kb. 50%-al gyengebb mint a dinamikus futasideju optimalizacio, de nem igenyel kulon aramkoroket. A gpu keszitok kulon celhardverkent szoktak feltuntetni a load/store egysegeket is, pedig ez minden cpu-ban alap. A texture unit-ok is csak specialis load egysegek, mig a rop unit-ok specialis store egysegek. Erre a celra x86-os csaladban kombinalt egysegek szolgalnak, tehat minden load/store unit kepes irni es olvasni is. A lokalis rambol ket fajta van. A thread group local (vagy L1) az amit az intel regisztereknek hiv. A masik pedig a kartya teljes dinamikus ram-ja, amit a load/store egysegek cache-elhetnek ha akarnak (L2/L3). A valodi gpu magok szamat mindig a branch egysegek szama adja meg, a tobbi csak simd utasitasokbol van osszerakva.

    Tehat egy mai core2 quad processzor gpu terminlologiaval elve egy 64 magos videokartyanak felel meg, csak a szuperskalar felepites miatt a gpu-khoz kepest azonos orajelen ketszeres teljesitmennyel. (azaz egy 2Ghz-es core2-es egy 4Ghz-es gpu-val merheto ossze mips-ben)

    Az intel 48 magos rendszere pedig egy 768 magos gpu-nak felel meg, de a PI-es mikroarchitektura miatt itt nem ervenyes a ketszeres orjel szoro, tehat ezek orajelben mar 1:1-ben hasonlithatoak ossze a mai gpu-kkal. Fontos teljesitmenyveszteseg az is, hogy a textura szures szoftveres (mint a gf8800-asoknal volt), tehat egy filtered texture load akar 4 utasitas idejet is megeszi, ami a shader kodtol fuggoen lassitja a feldolgozast.

    "A (1 PPE & 7 SPEs) inkább egy többmagos x86-ra hasonlít mint akármelyik gpu-ra. Abban egyetértek hogy az összehasonlítást óvatosan kell kezelni."

    A cell-ekben van 1 darab 64 bites powerpc proci, ez egy modern risc ami jo. A 7 spe (8 volt, de a ps3-asok csak a selejteseket kaptak, amiben meg 2 hibas volt ment a bravia tv-kbe), amibol 6 volt hasznalhato (1-en ment a masolasvedelem) csak sima dsp volt. Egy viszonylag kis lokalis memoriaval felszerelt, nagyon gyors, de nagyon buta dsp. A fejlesztest pedig az fogta meg, hogy az spe-k nem lattak a teljes memoriat. Tehat mig egy gpu latja a kartya teljes sajat ram-jat, addig a cell spe-k dma-val keregethettek el a rendszerrambol az adatokat. Az az algoritmus aminek a dataset-je koddal es stack-el egyutt nem fer el 128 KB-on, csak modositva volt futtathato spe-n. Marpedig csak ezert az egy dsp-jert nem fogja senki atirni a kodjat, ami az osszes tobbi architekturan jol fut. Nem eri meg penzugyileg. Nem veletlen, hogy az ibm dobta a cell-ek fejleszteset. A sajat tervezoje is elismerte, hogy a crossbar memoriavezerlo kihagyasa sporolas miatt hiba volt, a kis lokalis ram pedig betett a programozok lelkesedesenek. Ki akar ugy fejleszteni, hogy a nagy szamitasi kapacitas egy merevlemez csatolonak is epphogy elegseges csatorna vegen van, es csak par KB ram van a procikkal egy oldalon? Ugy nez ki, hogy az ibm is megunta.

    ps:
    Miert nem arulja ezeket a sokmagos chipeket az intel? Mert teljesitmenyben eppen csak ott vannak mint a konkurensek, de az altalanos memoriakezeles es vedelem miatt ketszer annyi tranzisztor kellett ezekhez a chip-ekhez, tehat valami katasztrofalis a kihozataluk. Viszont 1-2 magos formaban atom-oknak hivjuk oket (16-32 magos gpu-k lennenek ha nem cpu-nak hasznalnak oket). Ha viszont elkezdenek arulni az eredetileg 48, de csak 12/24/36 mukodo magos hibas chipeket, mint low end cpu/gpu kombokat...